Splinter modelo grande (con pesos de capa preentrenados QASS)
Splinter-large es el modelo preentrenado discutido en el artículo Few-Shot Question Answering by Pretraining Span Selection (en ACL 2021). El modelo es sensible a mayúsculas y minúsculas. Splinter es un modelo que se preentrena de manera auto-supervisada para respuestas a preguntas con pocos ejemplos. Esto significa que se preentrena solo con textos en bruto, sin ninguna intervención humana para etiquetarlos. Utiliza un proceso automático para generar entradas y etiquetas a partir de esos textos. Más precisamente, se preentrena con el objetivo de Selección de Span Recurrente (RSS), que emula el proceso de selección de span involucrado en la respuesta a preguntas extractivas. Dado un texto, se identifican primero los clusters de spans recurrentes (n-gramas que aparecen más de una vez en el texto). Para cada uno de estos clusters, todas sus instancias menos una se reemplazan con un token especial [QUESTION], y el modelo debe seleccionar el span correcto para cada uno de los span enmascarados. El modelo también define la capa de selección de span con conciencia de preguntas (QASS), que selecciona spans condicionados a una pregunta específica.
Como usar
El modelo se usa principalmente para la respuesta a preguntas extractivas con pocos ejemplos.
Funcionalidades
- Sensible a mayúsculas y minúsculas
- Objetivo de Selección de Span Recurrente (RSS)
- Capa de selección de span con conciencia de preguntas (QASS)
Casos de uso
- Respuesta a preguntas extractivas
- Evaluación de spans recurrentes en textos
- Entrenamiento con datos públicos