BSC-LT/roberta-large-bne-sqac

BSC-LT

Pregunta y respuesta

RoBERTa-large-bne es un modelo de lenguaje enmascarado basado en transformadores para el idioma español. Se basa en el modelo RoBERTa large y ha sido preentrenado utilizando el corpus más grande en español conocido hasta la fecha, con un total de 570GB de texto limpio y deduplicado procesado para este trabajo, compilado a partir de las exploraciones web realizadas por la Biblioteca Nacional de España (BNE) desde 2009 hasta 2019. Este modelo ha sido afinado para el corpus de Preguntas y Respuestas en Español (SQAC).

Como usar

Para usar este modelo en una aplicación de Preguntas y Respuestas, primero debe cargarse usando la biblioteca transformers de Hugging Face. Aquí tienes un ejemplo en Python:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch

# Cargar el tokenizador y el modelo
tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta-large-bne-sqac")
model = AutoModelForQuestionAnswering.from_pretrained("BSC-LT/roberta-large-bne-sqac")

# Definir pregunta y contexto
question = "¿Quién inventó el submarino?"
context = "Isaac Peral fue un murciano que inventó el submarino"

# Tokenizar entrada
inputs = tokenizer(question, context, return_tensors="pt")

# Obtener respuestas
with torch.no_grad():
    outputs = model(**inputs)
start_logits = outputs.start_logits
end_logits = outputs.end_logits

# Obtener el índice de la palabra de inicio y fin de la respuesta
start_index = torch.argmax(start_logits)
end_index = torch.argmax(end_logits)

# Convertir índices de palabras a tokens y luego a texto
tokens = inputs.input_ids[0][start_index:end_index+1]
answer = tokenizer.decode(tokens)
print(f"Respuesta: {answer}")

Funcionalidades

Modelo basado en transformadores
Preentrenado con el corpus más grande en español (570GB)
Afinado para el corpus de Preguntas y Respuestas en Español (SQAC)
Optimizado para la tarea de Preguntas y Respuestas
Compatible con PyTorch

Casos de uso

Responder preguntas basadas en un texto dado
Sistemas de atención al cliente automático
Asistentes virtuales
Bibliotecas de información automatizadas