ddobokki/klue-roberta-small-nli-sts

ddobokki

Similitud de oraciones

한국어 Sentence Transformer 모델입니다. Este modelo transforma oraciones en embeddings para comparar la similitud entre ellas. Utiliza el modelo Roberta y es compatible con varias bibliotecas populares como `sentence-transformers`, `transformers` y `pytorch`.

Como usar

Uso (Sentence-Transformers)
from sentence_transformers import SentenceTransformer
sentences = ["흐르는 강물을 거꾸로 거슬러 오르는", "세월이 가면 가슴이 터질 듯한"]

model = SentenceTransformer('ddobokki/klue-roberta-small-nli-sts')
embeddings = model.encode(sentences)
print(embeddings)

Uso (HuggingFace Transformers)
from transformers import AutoTokenizer, AutoModel
import torch

#Mean Pooling - Considerar la máscara de atención para una media correcta
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]  # El primer elemento de model_output contiene todos los embeddings de tokens
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Oraciones para las que queremos embeddings
sentences = ["흐르는 강물을 거꾸로 거슬러 오르는", "세월이 가면 가슴이 터질 듯한"]

# Cargar modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('ddobokki/klue-roberta-small-nli-sts')
model = AutoModel.from_pretrained('ddobokki/klue-roberta-small-nli-sts')

# Tokenizar oraciones
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Calcular embeddings de los tokens
with torch.no_grad():
    model_output = model(**encoded_input)

# Realizar pooling. En este caso, pooling medio.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Embeddings de oraciones:")
print(sentence_embeddings)

Funcionalidades

Transformación de oraciones
Extracción de características
Similitud de oraciones
Compatible con AutoTrain
Embeddings de texto para inferencia
Compatible con endpoints de inferencia

Casos de uso

Comparación de similitud de oraciones
Generación de embeddings de texto
Análisis semántico de texto
Extracción de características de texto