electra-small-finetuned-squadv2
Electra-small-discriminator afinado en el conjunto de datos SQUAD v2.0 para la tarea de preguntas y respuestas (Q&A) avalado por mrm8488. ELECTRA es un nuevo método para el aprendizaje de representaciones de lenguaje auto-supervisado. Se puede utilizar para pre-entrenar redes transformadoras utilizando relativamente pocos recursos computacionales. Los modelos ELECTRA están entrenados para distinguir entre tokens de entrada «reales» y tokens falsos generados por otra red neuronal, similar al discriminador de un GAN. A pequeña escala, ELECTRA logra resultados sólidos incluso cuando se entrena en una sola GPU. A gran escala, ELECTRA logra resultados de vanguardia en el conjunto de datos SQuAD 2.0.
Como usar
Uso rápido con pipelinas:
from transformers import pipeline
QnA_pipeline = pipeline('question-answering', model='mrm8488/electra-base-finetuned-squadv2')
QnA_pipeline({
'context': 'Una nueva cepa de gripe que tiene el potencial de convertirse en pandemia ha sido identificada en China por científicos.',
'question': '¿Qué han descubierto los científicos de China?'
})
# Output:
{'answer': 'Una nueva cepa de gripe', 'end': 19, 'score': 0.8650811568752914, 'start': 0}
El modelo fue entrenado con el siguiente comando:
python transformers/examples/question-answering/run_squad.py \
--model_type electra \
--model_name_or_path 'google/electra-small-discriminator' \
--do_eval \
--do_train \
--do_lower_case \
--train_file '/content/dataset/train-v2.0.json' \
--predict_file '/content/dataset/dev-v2.0.json' \
--per_gpu_train_batch_size 16 \
--learning_rate 3e-5 \
--num_train_epochs 10 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir '/content/output' \
--overwrite_output_dir \
--save_steps 1000 \
--version_2_with_negative
Funcionalidades
- Aprendizaje de representaciones de lenguaje auto-supervisado
- Capacidad de distinguir entre tokens reales y falsos
- Logra resultados avanzados en el conjunto de datos SQuAD 2.0
- Entrenado utilizando una GPU Tesla P100 y 25GB de RAM
- Tamaño de modelo de 50MB
Casos de uso
- Respuesta a preguntas a partir de un contexto específico
- Determinación de preguntas imposibles de responder con el contexto dado
- Evaluación de modelos de lenguaje en tareas de Q&A