Seznam/simcse-small-e-czech

Seznam

Similitud de oraciones

SimCSE-Small-E-Czech es el modelo Seznam/small-e-czech ajustado con el objetivo SimCSE. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos pequeños de incrustación semántica de alta calidad en checo. Estos modelos funcionan bien en varias tareas de procesamiento del lenguaje natural, incluyendo búsqueda de similitud, recuperación, agrupamiento y clasificación. Para más detalles o resultados de evaluación, por favor visita el documento asociado o el repositorio de GitHub.

Como usar

You can load and use the model like this:
import torch
from transformers import AutoModel, AutoTokenizer

model_name = "Seznam/retromae-small-cs" # Hugging Face link
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extract CLS token embeddings

similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)

Funcionalidades

Búsqueda de similitud
Recuperación de información
Agrupamiento
Clasificación

Casos de uso

Búsqueda de similitud
Recuperación de información
Agrupamiento
Clasificación