splinter-large

tau

Pregunta y respuesta

Splinter-large es el modelo preentrenado discutido en el artículo Few-Shot Question Answering by Pretraining Span Selection (en ACL 2021). Su repositorio original puede encontrarse aquí. El modelo es sensible a mayúsculas y minúsculas. Nota (1): Este modelo no contiene los pesos preentrenados para la capa QASS (ver artículo para más detalles), y por lo tanto la capa QASS se inicializa aleatoriamente al cargarla. Para el modelo con esos pesos, vea tau/splinter-large-qass. Nota (2): Splinter-large fue entrenado después de la publicación del artículo, por lo que los resultados no se informaron. Sin embargo, este modelo supera al modelo base por amplios márgenes. Por ejemplo, en SQuAD, el modelo es capaz de alcanzar un 80% F1 dado solo 128 ejemplos, mientras que el modelo base obtiene solo ~73%. Vea los resultados para Splinter-large en el Apéndice de este artículo.

Como usar

El uso principal de este modelo es QA extractivo con pocas muestras.
Ejemplo de uso:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

# Cargar el tokenizador y el modelo
model_name = 'tau/splinter-large'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

# Proceso de inferencia (detalles adicionales y código según sea necesario)

Funcionalidades

Modelo preentrenado en la selección de spans para preguntas pocas veces vistas
Preentrenado en textos sin etiquetar por humanos
Utiliza el objetivo de Recurring Span Selection (RSS)
Define la capa Question-Aware Span selection (QASS)

Casos de uso

QA extractivo con pocas muestras
Predicciones múltiples condicionadas a una pregunta específica