Seznam/simcse-dist-mpnet-paracrawl-cs-en
Seznam
Similitud de oraciones
SimCSE-DistMPNet-Paracrawl es el modelo Seznam/dist-mpnet-paracrawl-cs-en afinado con el objetivo de SimCSE. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos pequeños de embeddings semánticos checos de alta calidad. Estos modelos se desempeñan bien en varias tareas de procesamiento de lenguaje natural, incluyendo búsqueda de similitud, recuperación, agrupamiento y clasificación. Para más detalles o resultados de evaluación, visite el artículo asociado o el repositorio de GitHub.
Como usar
Puedes cargar y usar el modelo de la siguiente manera:
import torch
from transformers import AutoModel, AutoTokenizer
model_name = "Seznam/retromae-small-cs"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]
# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extract CLS token embeddings
similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)
Funcionalidades
- Fine-tuned with SimCSE objective
- Desempeño eficaz en la búsqueda de similitud
- Capacidades de recuperación
- Modelo pequeño de embeddings semánticos
- Capacidad de agrupamiento y clasificación
Casos de uso
- Búsqueda de similitud
- Recuperación de información
- Agrupamiento de textos
- Clasificación de textos