Seznam/simcse-dist-mpnet-czeng-cs-en
Seznam
Similitud de oraciones
SimCSE-Dist-MPNet-CzEng es el modelo Seznam/Seznam/dist-mpnet-czeng-cs-en afinado con el objetivo SimCSE. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos semánticos pequeños de alta calidad en checo. Estos modelos funcionan bien en varias tareas de procesamiento del lenguaje natural, incluyendo la búsqueda de similitud, recuperación, agrupamiento y clasificación. Para más detalles o resultados de evaluación, por favor visite el documento asociado o el repositorio de GitHub.
Como usar
Puedes cargar y usar el modelo de esta manera:
import torch
from transformers import AutoModel, AutoTokenizer
model_name = "Seznam/retromae-small-cs" # Enlace de Hugging Face
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]
# Tokenize los textos de entrada
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extraer embeddings del token CLS
similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)
Funcionalidades
- Búsqueda de similitud
- Recuperación
- Agrupamiento
- Clasificación
Casos de uso
- Búsqueda de similitud
- Recuperación de información
- Agrupamiento de textos
- Clasificación de texto