BSC-LT/roberta-base-bne-sqac
RoBERTa-base-bne es un modelo de lenguaje enmascarado basado en transformadores para el idioma español. Está basado en el modelo base de RoBERTa y ha sido preentrenado utilizando el corpus más grande de español conocido hasta la fecha, con un total de 570GB de texto limpio y deduplicado, procesado para este trabajo, compilado a partir de las rastreos de la web realizados por la Biblioteca Nacional de España (BNE) de 2009 a 2019. El modelo original preentrenado puede encontrarse en: https://huggingface.co/BSC-TeMU/roberta-base-bne.
Como usar
Evaluación y resultados: Puntuación F1: 0.7923 (promedio de 5 ejecuciones). Para detalles de evaluación visite nuestro repositorio de GitHub.
Citación: Consulte nuestro artículo para todos los detalles: https://arxiv.org/abs/2107.07253
@misc{gutierrezfandino2021spanish,
title={Spanish Language Models},
author={Asier Gutiérrez-Fandiño y Jordi Armengol-Estapé y Marc Pàmies y Joan Llop-Palao y Joaquín Silveira-Ocampo y Casimiro Pio Carrino y Aitor Gonzalez-Agirre y Carme Armentano-Oller y Carlos Rodriguez-Penagos y Marta Villegas},
year={2021},
eprint={2107.07253},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
### Ejemplos de uso
__Pregunta:__ ¿Dónde vivo?
__Contexto:__ Me llamo Wolfgang y vivo en Berlin
__Respuesta:__ Berlin
__Pregunta:__ ¿Quién inventó el submarino?
__Contexto:__ Isaac Peral fue un murciano que inventó el submarino
__Respuesta:__ Isaac Peral
__Pregunta:__ ¿Cuántas personas hablan español?
__Contexto:__ El español es el segundo idioma más hablado del mundo con más de 442 millones de hablantes
__Respuesta:__ más de 442 millones de hablantes
Funcionalidades
- Modelo de lenguaje enmascarado basado en transformadores
- Basado en RoBERTa base
- Preentrenado con el mayor corpus en español conocido hasta la fecha (570GB)
- Optimizado para tareas de respuesta a preguntas en español
- Dataset utilizado: corpus SQAC
Casos de uso
- Responder preguntas en español
- Identificación de entidades mencionadas en textos
- Análisis de grandes volúmenes de texto en español
- Extracción de información de textos en español