squeezebert-finetuned-squadv2
Este modelo, squeezebert-uncased, es un modelo preentrenado para la lengua inglesa utilizando un objetivo de modelado de lenguaje enmascarado (MLM) y de predicción del orden de las oraciones (SOP). SqueezeBERT se introdujo en este artículo. Este modelo no es sensible a las mayúsculas. La arquitectura del modelo es similar a BERT-base, pero con las capas completamente conectadas punto a punto reemplazadas por convoluciones agrupadas. Los autores encontraron que SqueezeBERT es 4.3 veces más rápido que bert-base-uncased en un Google Pixel 3. SQuAD2.0 combina las 100,000 preguntas de SQuAD1.1 con más de 50,000 preguntas imposibles de responder escritas de manera adversarial por trabajadores externos para parecer preguntas respondibles. Para lograr un buen rendimiento en SQuAD2.0, los sistemas no solo deben responder preguntas cuando sea posible, sino también determinar cuándo ningún párrafo apoya una respuesta y abstenerse de responder.
Como usar
Uso rápido con pipelines:
from transformers import pipeline
QnA_pipeline = pipeline('question-answering', model='mrm8488/squeezebert-finetuned-squadv2')
QnA_pipeline({
'context': 'A new strain of flu that has the potential to become a pandemic has been identified in China by scientists.',
'question': 'Who did identified it ?'
})
Salida: {'answer': 'scientists.', 'end': 106, 'score': 0.9768241047859192, 'start': 96}
Entrenamiento del modelo:
python /content/transformers/examples/question-answering/run_squad.py \
--model_type bert \
--model_name_or_path squeezebert/squeezebert-uncased \
--do_train \
--do_eval \
--do_lower_case \
--train_file /content/dataset/train-v2.0.json \
--predict_file /content/dataset/dev-v2.0.json \
--per_gpu_train_batch_size 16 \
--learning_rate 3e-5 \
--num_train_epochs 15 \
--max_seq_length 384 \
--doc_stride 128 \
--output_dir /content/output_dir \
--overwrite_output_dir \
--version_2_with_negative \
--save_steps 2000
Funcionalidades
- Modelo preentrenado no sensible a mayúsculas
- Utiliza modelado de lenguaje enmascarado (MLM) y predicción del orden de las oraciones (SOP)
- Arquitectura similar a BERT-base pero con capas completamente conectadas reemplazadas por convoluciones agrupadas
- 4.3 veces más rápido que bert-base-uncased en un Google Pixel 3
- Combina 100,000 preguntas de SQuAD1.1 con más de 50,000 preguntas imposibles de responder
Casos de uso
- Responder preguntas basadas en contextos dados
- Determinar cuándo un contexto no apoya una respuesta
- Aplicaciones en asistentes virtuales y chatbots
- Análisis y resumen de documentos