mrm8488/bert-italian-finedtuned-squadv1-it-alfa
BERT base en italiano ajustado con SQuAD_it v1 para tareas downstream de preguntas y respuestas. Los datos fuente para el modelo italiano de BERT consisten en un volcado reciente de Wikipedia y varios textos de la colección de corpus OPUS. El corpus final de entrenamiento tiene un tamaño de 13GB y 2,050,057,573 tokens. Para la división de oraciones, se utiliza NLTK (más rápido comparado con spacy). Los modelos con y sin mayúsculas se entrenan con una longitud de secuencia inicial de 512 subpalabras durante ~2-3M pasos. Para los modelos XXL en italiano, se usa el mismo conjunto de datos de entrenamiento de OPUS y se extiende con datos de la parte italiana del corpus OSCAR, logrando un tamaño final de 81GB y 13,138,379,147 tokens.
Como usar
Uso rápido con pipelines 🧪
from transformers import pipeline
nlp_qa = pipeline(
'question-answering',
model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa',
tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa'
)
nlp_qa(
{
'question': 'Per quale lingua stai lavorando?',
'context': 'Manuel Romero è colaborando attivamente con HF / trasformatori per il trader del poder de las últimas '+
'técnicas di procesamiento de lenguaje natural al idioma español'
}
)
Salida: {'answer': 'español', 'end': 174, 'score': 0.9925341537498156, 'start': 168}
Funcionalidades
- Modelo BERT base en italiano ajustado finamente con SQuAD_it v1 para tareas de preguntas y respuestas.
- Datos fuente: volcado reciente de Wikipedia y textos de la colección de corpus OPUS.
- Tamaño del corpus de entrenamiento final: 13GB y 2,050,057,573 tokens.
- Modelos cased y uncased entrenados con una longitud de secuencia inicial de 512 subpalabras durante ~2-3M pasos.
- Para modelos XXL en italiano, datos adicionales del corpus OSCAR con un tamaño final del corpus de 81GB y 13,138,379,147 tokens.
Casos de uso
- Procesos de preguntas y respuestas abiertas en italiano.
- Evaluación de benchmarking en sistemas de QA con SQuAD_it.