electra-small-finetuned-squadv2

mrm8488
Pregunta y respuesta

Electra-small-discriminator afinado en el conjunto de datos SQUAD v2.0 para la tarea de preguntas y respuestas (Q&A) avalado por mrm8488. ELECTRA es un nuevo método para el aprendizaje de representaciones de lenguaje auto-supervisado. Se puede utilizar para pre-entrenar redes transformadoras utilizando relativamente pocos recursos computacionales. Los modelos ELECTRA están entrenados para distinguir entre tokens de entrada «reales» y tokens falsos generados por otra red neuronal, similar al discriminador de un GAN. A pequeña escala, ELECTRA logra resultados sólidos incluso cuando se entrena en una sola GPU. A gran escala, ELECTRA logra resultados de vanguardia en el conjunto de datos SQuAD 2.0.

Como usar

Uso rápido con pipelinas:

from transformers import pipeline
QnA_pipeline = pipeline('question-answering', model='mrm8488/electra-base-finetuned-squadv2')
QnA_pipeline({
'context': 'Una nueva cepa de gripe que tiene el potencial de convertirse en pandemia ha sido identificada en China por científicos.',
'question': '¿Qué han descubierto los científicos de China?'
})
# Output:
{'answer': 'Una nueva cepa de gripe', 'end': 19, 'score': 0.8650811568752914, 'start': 0}

El modelo fue entrenado con el siguiente comando:

python transformers/examples/question-answering/run_squad.py \
--model_type electra \
--model_name_or_path 'google/electra-small-discriminator' \
--do_eval \
--do_train \
--do_lower_case \
--train_file '/content/dataset/train-v2.0.json' \
--predict_file '/content/dataset/dev-v2.0.json' \
--per_gpu_train_batch_size 16 \
--learning_rate 3e-5 \
--num_train_epochs 10 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir '/content/output' \
--overwrite_output_dir \
--save_steps 1000 \
--version_2_with_negative

Funcionalidades

Aprendizaje de representaciones de lenguaje auto-supervisado
Capacidad de distinguir entre tokens reales y falsos
Logra resultados avanzados en el conjunto de datos SQuAD 2.0
Entrenado utilizando una GPU Tesla P100 y 25GB de RAM
Tamaño de modelo de 50MB

Casos de uso

Respuesta a preguntas a partir de un contexto específico
Determinación de preguntas imposibles de responder con el contexto dado
Evaluación de modelos de lenguaje en tareas de Q&A