Seznam/simcse-dist-mpnet-czeng-cs-en

Seznam

Similitud de oraciones

SimCSE-Dist-MPNet-CzEng es el modelo Seznam/Seznam/dist-mpnet-czeng-cs-en afinado con el objetivo SimCSE. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos semánticos pequeños de alta calidad en checo. Estos modelos funcionan bien en varias tareas de procesamiento del lenguaje natural, incluyendo la búsqueda de similitud, recuperación, agrupamiento y clasificación. Para más detalles o resultados de evaluación, por favor visite el documento asociado o el repositorio de GitHub.

Como usar

Puedes cargar y usar el modelo de esta manera:
import torch
from transformers import AutoModel, AutoTokenizer

model_name = "Seznam/retromae-small-cs" # Enlace de Hugging Face
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]

# Tokenize los textos de entrada
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extraer embeddings del token CLS

similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)

Funcionalidades

Búsqueda de similitud
Recuperación
Agrupamiento
Clasificación

Casos de uso

Búsqueda de similitud
Recuperación de información
Agrupamiento de textos
Clasificación de texto