splinter-large
Splinter-large es el modelo preentrenado discutido en el artículo Few-Shot Question Answering by Pretraining Span Selection (en ACL 2021). Su repositorio original puede encontrarse aquí. El modelo es sensible a mayúsculas y minúsculas. Nota (1): Este modelo no contiene los pesos preentrenados para la capa QASS (ver artículo para más detalles), y por lo tanto la capa QASS se inicializa aleatoriamente al cargarla. Para el modelo con esos pesos, vea tau/splinter-large-qass. Nota (2): Splinter-large fue entrenado después de la publicación del artículo, por lo que los resultados no se informaron. Sin embargo, este modelo supera al modelo base por amplios márgenes. Por ejemplo, en SQuAD, el modelo es capaz de alcanzar un 80% F1 dado solo 128 ejemplos, mientras que el modelo base obtiene solo ~73%. Vea los resultados para Splinter-large en el Apéndice de este artículo.
Como usar
El uso principal de este modelo es QA extractivo con pocas muestras.
Ejemplo de uso:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
# Cargar el tokenizador y el modelo
model_name = 'tau/splinter-large'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
# Proceso de inferencia (detalles adicionales y código según sea necesario)
Funcionalidades
- Modelo preentrenado en la selección de spans para preguntas pocas veces vistas
- Preentrenado en textos sin etiquetar por humanos
- Utiliza el objetivo de Recurring Span Selection (RSS)
- Define la capa Question-Aware Span selection (QASS)
Casos de uso
- QA extractivo con pocas muestras
- Predicciones múltiples condicionadas a una pregunta específica