mrm8488/bert-italian-finedtuned-squadv1-it-alfa

mrm8488
Pregunta y respuesta

BERT base en italiano ajustado con SQuAD_it v1 para tareas downstream de preguntas y respuestas. Los datos fuente para el modelo italiano de BERT consisten en un volcado reciente de Wikipedia y varios textos de la colección de corpus OPUS. El corpus final de entrenamiento tiene un tamaño de 13GB y 2,050,057,573 tokens. Para la división de oraciones, se utiliza NLTK (más rápido comparado con spacy). Los modelos con y sin mayúsculas se entrenan con una longitud de secuencia inicial de 512 subpalabras durante ~2-3M pasos. Para los modelos XXL en italiano, se usa el mismo conjunto de datos de entrenamiento de OPUS y se extiende con datos de la parte italiana del corpus OSCAR, logrando un tamaño final de 81GB y 13,138,379,147 tokens.

Como usar

Uso rápido con pipelines 🧪

from transformers import pipeline

nlp_qa = pipeline(
'question-answering',
model='mrm8488/bert-italian-finedtuned-squadv1-it-alfa',
tokenizer='mrm8488/bert-italian-finedtuned-squadv1-it-alfa'
)

nlp_qa(
{
'question': 'Per quale lingua stai lavorando?',
'context': 'Manuel Romero è colaborando attivamente con HF / trasformatori per il trader del poder de las últimas '+
'técnicas di procesamiento de lenguaje natural al idioma español'
}
)

Salida: {'answer': 'español', 'end': 174, 'score': 0.9925341537498156, 'start': 168}

Funcionalidades

Modelo BERT base en italiano ajustado finamente con SQuAD_it v1 para tareas de preguntas y respuestas.
Datos fuente: volcado reciente de Wikipedia y textos de la colección de corpus OPUS.
Tamaño del corpus de entrenamiento final: 13GB y 2,050,057,573 tokens.
Modelos cased y uncased entrenados con una longitud de secuencia inicial de 512 subpalabras durante ~2-3M pasos.
Para modelos XXL en italiano, datos adicionales del corpus OSCAR con un tamaño final del corpus de 81GB y 13,138,379,147 tokens.

Casos de uso

Procesos de preguntas y respuestas abiertas en italiano.
Evaluación de benchmarking en sistemas de QA con SQuAD_it.