microsoft/tapex-base-finetuned-tabfact
microsoft
Clasificación de texto
TAPEX (Table Pre-training via Execution) es un enfoque de preentrenamiento conceptualmente simple y empíricamente poderoso para dotar a los modelos existentes con habilidades de razonamiento en tablas. TAPEX realiza el preentrenamiento de tablas aprendiendo un ejecutor de SQL neural sobre un corpus sintético, que se obtiene automáticamente sintetizando consultas SQL ejecutables. TAPEX está basado en la arquitectura BART, el modelo transformador encoder-encoder (seq2seq) con un codificador bidireccional (similar a BERT) y un decodificador autoregresivo (similar a GPT). Este modelo es la versión tapex-base afinada en el conjunto de datos Tabfact.
Como usar
Aquí se muestra cómo usar este modelo en transformers:
from transformers import TapexTokenizer, BartForSequenceClassification
import pandas as pd
tokenizer = TapexTokenizer.from_pretrained("microsoft/tapex-base-finetuned-tabfact")
model = BartForSequenceClassification.from_pretrained("microsoft/tapex-base-finetuned-tabfact")
data = {
"year": [1896, 1900, 1904, 2004, 2008, 2012],
"city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)
# tapex acepta entrada sin diferenciar entre mayúsculas y minúsculas ya que se preentrena en el corpus sin distinción de mayúsculas y minúsculas
query = "beijing hosts the olympic games in 2012"
encoding = tokenizer(table=table, query=query, return_tensors="pt")
outputs = model(**encoding)
output_id = int(outputs.logits[0].argmax(dim=0))
print(model.config.id2label[output_id])
# Refused
Funcionalidades
- Preentrenamiento en tablas
- Habilidades de razonamiento en tablas
- Basado en la arquitectura BART
- Codificador bidireccional (similar a BERT)
- Decodificador autoregresivo (similar a GPT)
Casos de uso
- Verificación de hechos en tablas