PhucDanh/Bartpho-fine-tuning-model-for-question-answering

PhucDanh
Pregunta y respuesta

Bartpho es un poderoso modelo de lenguaje que aborda el texto en vietnamita con resultados impresionantes. Viene en dos versiones, enfocándose en palabras o sílabas, y sobresale en tareas generativas como resumir texto vietnamita. La versión de sílaba de Bartpho, específicamente llamada BARTpho-sílabas, adopta un enfoque único para procesar texto en vietnamita. Esta versión de sílaba, a diferencia de los modelos tradicionales basados en palabras, descompone las palabras vietnamitas en sus sílabas individuales, lo cual ofrece ventajas significativas para tareas de procesamiento del lenguaje natural en vietnamita.

Como usar

Usando un pipeline como un asistente de alto nivel

from transformers import pipeline

context="""
Trường Đại học Công nghệ Thông tin (ĐH CNTT), Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) là trường đại học công lập đào tạo về công nghệ thông tin và truyền thông (CNTT&TT) được thành lập theo quyếtịnh số 134/2006/QĐ-TTg ngày 08/06/2006 của Thủ tướng Chính phủ. Là trường thành viên của ĐHQG-HCM, trường ĐH CNTT có nhiệm vụ đào tạo nguồn nhân lực công nghệ thông tin chất lượng cao, góp phần tích cực vào sự phát triển của nền công nghiệp công nghệ thông tin Việt Nam, đồng thời tiến hành nghiên cứu khoa học và chuyển giao công nghệ thông tin tiên tiến, đặc biệt là hướng vào các ứng dụng nhằm góp phần đẩy mạnh sự nghiệp công nghiệp hóa, hiện đại hóa đất nước.
Sau hơn 10 năm xây dựng và phát triển, hiện trường ĐH CNTT sở hữu cơ sở vật chất gồm khu học tập, nghiên cứu và làm việc được đầu tư xây dựng khang trang, hiện đại với tổng diện tích trên 14 hecta trong khuôn viên khu đô thị ĐHQG-HCM.
"""

question="""
Trường UIT mang trong mình nhiệm vụ gì?
"""

pipe = pipeline("question-answering", model="PhucDanh/Bartpho-fine-tuning-model-for-question-answering")
pipe(question=question, context=context)

Cargar el modelo directamente

from transformers import AutoTokenizer
from transformers import AutoModelForQuestionAnswering
import torch

context="""
Trường Đại học Công nghệ Thông tin (ĐH CNTT), Đại học Quốc gia Thành phố Hồ Chí Minh (ĐHQG-HCM) là trường đại học công lập đào tạo về công nghệ thông tin và truyền thông (CNTT&TT) được thành lập theo quyếtịnh số 134/2006/QĐ-TTg ngày 08/06/2006 của Thủ tướng Chính phủ. Là trường thành viên của ĐHQG-HCM, trường ĐH CNTT có nhiệm vụ đào tạo nguồn nhân lực công nghệ thông tin chất lượng cao, góp phần tích cực vào sự phát triển của nền công nghiệp công nghệ thông tin Việt Nam, đồng thời tiến hành nghiên cứu khoa học và chuyển giao công nghệ thông tin tiên tiến, đặc biệt là hướng vào các ứng dụng nhằm góp phần đẩy mạnh sự nghiệp công nghiệp hóa, hiện đại hóa đất nước.
Sau hơn 10 năm xây dựng và phát triển, hiện trường ĐH CNTT sở hữu cơ sở vật chất gồm khu học tập, nghiên cứu và làm việc được đầu tư xây dựng khang trang, hiện đại với tổng diện tích trên 14 hecta trong khuôn viên khu đô thị ĐHQG-HCM.
"""

question="""
Trường UIT mang trong mình nhiệm vụ gì?
"""

tokenizer = AutoTokenizer.from_pretrained("PhucDanh/Bartpho-fine-tuning-model-for-question-answering")
tokenizer.model_input_names.remove("token_type_ids")

inputs = tokenizer(question, context, return_tensors="pt")

model = AutoModelForQuestionAnswering.from_pretrained("PhucDanh/Bartpho-fine-tuning-model-for-question-answering")
with torch.no_grad():
    outputs = model(**inputs)

answer_start_index = outputs.start_logits.argmax()
answer_end_index = outputs.end_logits.argmax()

predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
print(tokenizer.decode(predict_answer_tokens))

API de inferencia

import requests

API_URL = "https://api-inference.huggingface.co/models/PhucDanh/Bartpho-fine-tuning-model-for-question-answering"
headers = {"Authorization": "Bearer hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"}

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()
    
output = query({
    "inputs": {
        "question": "What is my name?",
        "context": "My name is Clara and I live in Berkeley."
    },
})

Funcionalidades

Procesamiento basado en sílabas
Mejor rendimiento en tareas como la resumirización de textos
Captura de matices más finos del idioma vietnamita

Casos de uso

Resumir textos vietnamitas
Responder preguntas en vietnamita
Procesamiento de lenguaje natural para textos vietnamitas