longformer-base-4096-español fine-tuned en SQAC para preguntas y respuestas

mrm8488

Pregunta y respuesta

longformer-base-4096-español es un modelo similar a BERT iniciado desde el punto de control de RoBERTa (en este caso BERTIN) y preentrenado para MLM en documentos largos (de todas las wikis de BETO). Admite secuencias de hasta 4,096 caracteres. Este modelo está ajustado para el conjunto de datos de preguntas y respuestas SQAC en español. El modelo es útil para tareas de preguntas y respuestas sobre documentos extensos.

Como usar

Uso rápido con el pipeline de Hugging Face
from transformers import pipeline
qa_pipe = pipeline("question-answering", model='mrm8488/longformer-base-4096-spanish-finetuned-squad')
context = '''
Hace aproximadamente un año, Hugging Face, una startup de procesamiento de lenguaje natural con sede en Brooklyn, Nueva York, lanzó BigScience, un proyecto internacional con más de 900 investigadores que está diseñado para comprender mejor y mejorar la calidad de los grandes modelos de lenguaje natural. Los modelos de lenguaje grande (LLM), algoritmos que pueden reconocer, predecir y generar lenguaje sobre la base de conjuntos de datos basados en texto, han captado la atención de empresarios y entusiastas de la tecnología por igual. Pero el costoso hardware requerido para desarrollar LLM los ha mantenido en gran medida fuera del alcance de los investigadores sin los recursos de compañías como OpenAI y DeepMind detrás de ellos.

Inspirándose en organizaciones como la Organización Europea para la Investigación Nuclear (también conocida como CERN) y el Gran Colisionador de Hadrones, el objetivo de BigScience es crear LLM y grandes conjuntos de datos de texto que eventualmente serán de código abierto para la IA más amplia. comunidad. Los modelos serán entrenados en la supercomputadora Jean Zay ubicada cerca de París, Francia, que se encuentra entre las máquinas más poderosas del mundo.
'''
question = "¿Cuál es el objetivo de BigScience?"

qa_pipe({'context':context, 'question': question})
# Salida
{'answer': 'comprender mejor y mejorar la calidad de los grandes modelos de lenguaje natural.',
'end': 305,
'score': 0.9999799728393555,
'start': 224}

Funcionalidades

Admite secuencias de longitud de hasta 4,096 caracteres
Ajustado para tareas de preguntas y respuestas en español
Preentrenado en documentos largos
Utiliza el conjunto de datos BSC-TeMU/SQAC

Casos de uso

Extracción de respuestas precisas a partir de textos largos en español.
Aplicaciones de preguntas y respuestas en asistentes virtuales.
Análisis de documentos extensos para obtener información clave.