microsoft/tapex-base-finetuned-tabfact

microsoft

Clasificación de texto

TAPEX (Table Pre-training via Execution) es un enfoque de preentrenamiento conceptualmente simple y empíricamente poderoso para dotar a los modelos existentes con habilidades de razonamiento en tablas. TAPEX realiza el preentrenamiento de tablas aprendiendo un ejecutor de SQL neural sobre un corpus sintético, que se obtiene automáticamente sintetizando consultas SQL ejecutables. TAPEX está basado en la arquitectura BART, el modelo transformador encoder-encoder (seq2seq) con un codificador bidireccional (similar a BERT) y un decodificador autoregresivo (similar a GPT). Este modelo es la versión tapex-base afinada en el conjunto de datos Tabfact.

Como usar

Aquí se muestra cómo usar este modelo en transformers:
from transformers import TapexTokenizer, BartForSequenceClassification
import pandas as pd

tokenizer = TapexTokenizer.from_pretrained("microsoft/tapex-base-finetuned-tabfact")
model = BartForSequenceClassification.from_pretrained("microsoft/tapex-base-finetuned-tabfact")

data = {
"year": [1896, 1900, 1904, 2004, 2008, 2012],
"city": ["athens", "paris", "st. louis", "athens", "beijing", "london"]
}
table = pd.DataFrame.from_dict(data)

# tapex acepta entrada sin diferenciar entre mayúsculas y minúsculas ya que se preentrena en el corpus sin distinción de mayúsculas y minúsculas
query = "beijing hosts the olympic games in 2012"
encoding = tokenizer(table=table, query=query, return_tensors="pt")

outputs = model(**encoding)
output_id = int(outputs.logits[0].argmax(dim=0))
print(model.config.id2label[output_id])
# Refused

Funcionalidades

Preentrenamiento en tablas
Habilidades de razonamiento en tablas
Basado en la arquitectura BART
Codificador bidireccional (similar a BERT)
Decodificador autoregresivo (similar a GPT)

Casos de uso

Verificación de hechos en tablas