VoVanPhuc/sup-SimCSE-VietNamese-phobert-base

VoVanPhuc

Similitud de oraciones

SimeCSE_Vietnamese: Aprendizaje contrastivo simple de incrustaciones de oraciones con vietnamita. Los modelos preentrenados SimeCSE_Vietnamese son el estado del arte en incrustaciones de oraciones con vietnamita. El enfoque de preentrenamiento SimeCSE_Vietnamese se basa en SimCSE que optimiza el procedimiento de preentrenamiento para un rendimiento más robusto. SimeCSE_Vietnamese codifica oraciones de entrada utilizando un modelo de lenguaje preentrenado como PhoBert y funciona con datos tanto etiquetados como no etiquetados.

Como usar

from sentence_transformers import SentenceTransformer
from pyvi.ViTokenizer import tokenize

model = SentenceTransformer('VoVanPhuc/sup-SimCSE-VietNamese-phobert-base')

sentences = [
  'Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
  'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
  'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
  'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
  'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
  '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
  'Thái Lan thua giao hữu trước vòng loại World Cup.',
  'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
  'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
  'Bắn chết người trong cuộc rượt đuổi trên sông.'
]

sentences = [tokenize(sentence) for sentence in sentences]
embeddings = model.encode(sentences)

import torch
from transformers import AutoModel, AutoTokenizer
from pyvi.ViTokenizer import tokenize

PhobertTokenizer = AutoTokenizer.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")
model = AutoModel.from_pretrained("VoVanPhuc/sup-SimCSE-VietNamese-phobert-base")

sentences = [
  'Kẻ đánh bom đinh tồi tệ nhất nước Anh.',
  'Nghệ sĩ làm thiện nguyện - minh bạch là việc cấp thiết.',
  'Bắc Giang tăng khả năng điều trị và xét nghiệm.',
  'HLV futsal Việt Nam tiết lộ lý do hạ Lebanon.',
  'việc quan trọng khi kêu gọi quyên góp từ thiện là phải minh bạch, giải ngân kịp thời.',
  '20% bệnh nhân Covid-19 có thể nhanh chóng trở nặng.',
  'Thái Lan thua giao hữu trước vòng loại World Cup.',
  'Cựu tuyển thủ Nguyễn Bảo Quân: May mắn ủng hộ futsal Việt Nam',
  'Chủ ki-ốt bị đâm chết trong chợ đầu mối lớn nhất Thanh Hoá.',
  'Bắn chết người trong cuộc rượt đuổi trên sông.'
]

sentences = [tokenize(sentence) for sentence in sentences]

inputs = PhobertTokenizer(sentences, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
  embeddings = model(**inputs, output_hidden_states=True, return_dict=True).pooler_output

Funcionalidades

Aprendizaje contrastivo de incrustaciones de oraciones
Modelos preentrenados con vietnamita
Basado en SimCSE para un rendimiento robusto
Utiliza modelos de lenguaje preentrenados como PhoBert
Compatibilidad con datos etiquetados y no etiquetados

Casos de uso

Incrustaciones de oraciones para sentimiento y análisis textual
Análisis de texto vietnamita sin etiquetar
Codificación robusta de oraciones para etiquetado de datos