Trivia-QA T5 base a libro cerrado
deep-learning-analytics
Pregunta y respuesta
Este es un modelo T5-base entrenado en el conjunto de datos No Context Trivia QA. La entrada al modelo es una pregunta de tipo Trivia. El modelo está ajustado para buscar la respuesta en su memoria y retornarla. El modelo preentrenado utilizado aquí fue entrenado en el conjunto de datos Common Crawl (C4). El modelo fue entrenado durante 135 épocas utilizando un tamaño de lote de 32 y una tasa de aprendizaje de 1e-3. La longitud máxima de entrada está establecida en 25 y la longitud máxima de salida en 10. El modelo alcanzó una puntuación EM de 17 y una puntuación de Coincidencia de Subconjunto de 24.5. Hemos escrito una publicación en el blog que cubre el procedimiento de entrenamiento. Por favor, encuéntrala aquí.
Como usar
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("deep-learning-analytics/triviaqa-t5-base")
model = AutoModelWithLMHead.from_pretrained("deep-learning-analytics/triviaqa-t5-base")
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = model.to(device)
text = "Who directed the movie Jaws?"
preprocess_text = text.strip().replace("\n","")
tokenized_text = tokenizer.encode(preprocess_text, return_tensors="pt").to(device)
outs = model.model.generate(
tokenized_text,
max_length=10,
num_beams=2,
early_stopping=True
)
dec = [tokenizer.decode(ids) for ids in outs]
print("Predicted Answer: ", dec)
Funcionalidades
- Modelo T5-base entrenado en No Context Trivia QA
- Entrada: pregunta de tipo Trivia
- Modelo preentrenado en el conjunto de datos Common Crawl (C4)
- Entrenado durante 135 épocas con tamaño de lote de 32 y tasa de aprendizaje de 1e-3
- Longitud máxima de entrada: 25
- Longitud máxima de salida: 10
- Puntuación EM: 17
- Puntuación de Coincidencia de Subconjunto: 24.5
Casos de uso
- Responder preguntas de Trivia utilizando IA
- Generación de texto basado en preguntas de Trivia