BSC-LT/roberta-large-bne-sqac
BSC-LT
Pregunta y respuesta
RoBERTa-large-bne es un modelo de lenguaje enmascarado basado en transformadores para el idioma español. Se basa en el modelo RoBERTa large y ha sido preentrenado utilizando el corpus más grande en español conocido hasta la fecha, con un total de 570GB de texto limpio y deduplicado procesado para este trabajo, compilado a partir de las exploraciones web realizadas por la Biblioteca Nacional de España (BNE) desde 2009 hasta 2019. Este modelo ha sido afinado para el corpus de Preguntas y Respuestas en Español (SQAC).
Como usar
Para usar este modelo en una aplicación de Preguntas y Respuestas, primero debe cargarse usando la biblioteca transformers de Hugging Face. Aquí tienes un ejemplo en Python:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch
# Cargar el tokenizador y el modelo
tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta-large-bne-sqac")
model = AutoModelForQuestionAnswering.from_pretrained("BSC-LT/roberta-large-bne-sqac")
# Definir pregunta y contexto
question = "¿Quién inventó el submarino?"
context = "Isaac Peral fue un murciano que inventó el submarino"
# Tokenizar entrada
inputs = tokenizer(question, context, return_tensors="pt")
# Obtener respuestas
with torch.no_grad():
outputs = model(**inputs)
start_logits = outputs.start_logits
end_logits = outputs.end_logits
# Obtener el índice de la palabra de inicio y fin de la respuesta
start_index = torch.argmax(start_logits)
end_index = torch.argmax(end_logits)
# Convertir índices de palabras a tokens y luego a texto
tokens = inputs.input_ids[0][start_index:end_index+1]
answer = tokenizer.decode(tokens)
print(f"Respuesta: {answer}")
Funcionalidades
- Modelo basado en transformadores
- Preentrenado con el corpus más grande en español (570GB)
- Afinado para el corpus de Preguntas y Respuestas en Español (SQAC)
- Optimizado para la tarea de Preguntas y Respuestas
- Compatible con PyTorch
Casos de uso
- Responder preguntas basadas en un texto dado
- Sistemas de atención al cliente automático
- Asistentes virtuales
- Bibliotecas de información automatizadas