BSC-LT/roberta-base-bne-sqac

BSC-LT

Pregunta y respuesta

RoBERTa-base-bne es un modelo de lenguaje enmascarado basado en transformadores para el idioma español. Está basado en el modelo base de RoBERTa y ha sido preentrenado utilizando el corpus más grande de español conocido hasta la fecha, con un total de 570GB de texto limpio y deduplicado, procesado para este trabajo, compilado a partir de las rastreos de la web realizados por la Biblioteca Nacional de España (BNE) de 2009 a 2019. El modelo original preentrenado puede encontrarse en: https://huggingface.co/BSC-TeMU/roberta-base-bne.

Como usar

Evaluación y resultados: Puntuación F1: 0.7923 (promedio de 5 ejecuciones). Para detalles de evaluación visite nuestro repositorio de GitHub.
Citación: Consulte nuestro artículo para todos los detalles: https://arxiv.org/abs/2107.07253
@misc{gutierrezfandino2021spanish,
title={Spanish Language Models},
author={Asier Gutiérrez-Fandiño y Jordi Armengol-Estapé y Marc Pàmies y Joan Llop-Palao y Joaquín Silveira-Ocampo y Casimiro Pio Carrino y Aitor Gonzalez-Agirre y Carme Armentano-Oller y Carlos Rodriguez-Penagos y Marta Villegas},
year={2021},
eprint={2107.07253},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
### Ejemplos de uso

__Pregunta:__ ¿Dónde vivo?

__Contexto:__ Me llamo Wolfgang y vivo en Berlin

__Respuesta:__ Berlin

__Pregunta:__ ¿Quién inventó el submarino?

__Contexto:__ Isaac Peral fue un murciano que inventó el submarino

__Respuesta:__ Isaac Peral

__Pregunta:__ ¿Cuántas personas hablan español?

__Contexto:__ El español es el segundo idioma más hablado del mundo con más de 442 millones de hablantes

__Respuesta:__ más de 442 millones de hablantes

Funcionalidades

Modelo de lenguaje enmascarado basado en transformadores
Basado en RoBERTa base
Preentrenado con el mayor corpus en español conocido hasta la fecha (570GB)
Optimizado para tareas de respuesta a preguntas en español
Dataset utilizado: corpus SQAC

Casos de uso

Responder preguntas en español
Identificación de entidades mencionadas en textos
Análisis de grandes volúmenes de texto en español
Extracción de información de textos en español