Trivia-QA T5 base a libro cerrado

deep-learning-analytics
Pregunta y respuesta

Este es un modelo T5-base entrenado en el conjunto de datos No Context Trivia QA. La entrada al modelo es una pregunta de tipo Trivia. El modelo está ajustado para buscar la respuesta en su memoria y retornarla. El modelo preentrenado utilizado aquí fue entrenado en el conjunto de datos Common Crawl (C4). El modelo fue entrenado durante 135 épocas utilizando un tamaño de lote de 32 y una tasa de aprendizaje de 1e-3. La longitud máxima de entrada está establecida en 25 y la longitud máxima de salida en 10. El modelo alcanzó una puntuación EM de 17 y una puntuación de Coincidencia de Subconjunto de 24.5. Hemos escrito una publicación en el blog que cubre el procedimiento de entrenamiento. Por favor, encuéntrala aquí.

Como usar

from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("deep-learning-analytics/triviaqa-t5-base")
model = AutoModelWithLMHead.from_pretrained("deep-learning-analytics/triviaqa-t5-base")

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = model.to(device)

text = "Who directed the movie Jaws?"

preprocess_text = text.strip().replace("\n","")
tokenized_text = tokenizer.encode(preprocess_text, return_tensors="pt").to(device)

outs = model.model.generate(
tokenized_text,
max_length=10,
num_beams=2,
early_stopping=True
)

dec = [tokenizer.decode(ids) for ids in outs]
print("Predicted Answer: ", dec)

Funcionalidades

Modelo T5-base entrenado en No Context Trivia QA
Entrada: pregunta de tipo Trivia
Modelo preentrenado en el conjunto de datos Common Crawl (C4)
Entrenado durante 135 épocas con tamaño de lote de 32 y tasa de aprendizaje de 1e-3
Longitud máxima de entrada: 25
Longitud máxima de salida: 10
Puntuación EM: 17
Puntuación de Coincidencia de Subconjunto: 24.5

Casos de uso

Responder preguntas de Trivia utilizando IA
Generación de texto basado en preguntas de Trivia