Seznam/simcse-dist-mpnet-paracrawl-cs-en

Seznam
Similitud de oraciones

SimCSE-DistMPNet-Paracrawl es el modelo Seznam/dist-mpnet-paracrawl-cs-en afinado con el objetivo de SimCSE. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos pequeños de embeddings semánticos checos de alta calidad. Estos modelos se desempeñan bien en varias tareas de procesamiento de lenguaje natural, incluyendo búsqueda de similitud, recuperación, agrupamiento y clasificación. Para más detalles o resultados de evaluación, visite el artículo asociado o el repositorio de GitHub.

Como usar

Puedes cargar y usar el modelo de la siguiente manera:

import torch
from transformers import AutoModel, AutoTokenizer

model_name = "Seznam/retromae-small-cs"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extract CLS token embeddings

similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)

Funcionalidades

Fine-tuned with SimCSE objective
Desempeño eficaz en la búsqueda de similitud
Capacidades de recuperación
Modelo pequeño de embeddings semánticos
Capacidad de agrupamiento y clasificación

Casos de uso

Búsqueda de similitud
Recuperación de información
Agrupamiento de textos
Clasificación de textos