xlm-roberta-large-vi-qa

ancs21

Pregunta y respuesta

XLM-RoBERTa grande para preguntas y respuestas en idiomas vietnamitas (también compatible con varios idiomas). El modelo utiliza xlm-roberta-large y está afinado con deepset/xlm-roberta-large-squad2. La tarea de downstream es preguntas y respuestas extractivas utilizando el conjunto de datos mailong25/bert-vietnamese-question-answering. La capacitación se realizó con el archivo train-v2.0.json en formato SQuAD 2.0 y la evaluación con dev-v2.0.json en el mismo formato. La infraestructura usada incluye una Tesla P100 en Google Colab.

Como usar

Cómo usar el modelo
from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline

model_name = "ancs21/xlm-roberta-large-vi-qa"

# Cargar el modelo y el tokenizador
model = AutoModelForQuestionAnswering.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Crear una tubería de pregunta-respuesta
nlp = pipeline("question-answering", model=model, tokenizer=tokenizer)

# Pregunta y contexto
question = "Toà nhà nào cao nhất Việt Nam?"
context = "Landmark 81 là một toà nhà chọc trời trong tổ hợp dự án Vinhomes Tân Cảng, một dự án có tổng mức đầu tư 40.000 tỷ đồng, do Công ty Cổ phần Đầu tư xây dựng Tân Liên Phát thuộc Vingroup làm chủ đầu tư. Toà tháp cao 81 tầng, hiện tại là toà nhà cao nhất Việt Nam và là toà nhà cao nhất Đông Nam Á từ tháng 3 năm 2018."

# Obtener la respuesta
result = nlp(question=question, context=context)
print(result)

Funcionalidades

Modelo de lenguaje: xlm-roberta-large
Afinado con: deepset/xlm-roberta-large-squad2
Idioma: Vietnamita
Tarea de downstream: Preguntas y Respuestas Extractivas
Conjunto de datos: mailong25/bert-vietnamese-question-answering
Datos de entrenamiento: train-v2.0.json (formato SQuAD 2.0)
Datos de evaluación: dev-v2.0.json (formato SQuAD 2.0)
Infraestructura: 1x Tesla P100 (Google Colab)

Casos de uso

Sistema de preguntas y respuestas en vietnamita
Asistentes virtuales que responden preguntas específicas en vietnamita
Motores de búsqueda que necesitan extraer respuestas precisas de documentos vietnamitas