Seznam/simcse-small-e-czech
Seznam
Similitud de oraciones
SimCSE-Small-E-Czech es el modelo Seznam/small-e-czech ajustado con el objetivo SimCSE. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos pequeños de incrustación semántica de alta calidad en checo. Estos modelos funcionan bien en varias tareas de procesamiento del lenguaje natural, incluyendo búsqueda de similitud, recuperación, agrupamiento y clasificación. Para más detalles o resultados de evaluación, por favor visita el documento asociado o el repositorio de GitHub.
Como usar
You can load and use the model like this:
import torch
from transformers import AutoModel, AutoTokenizer
model_name = "Seznam/retromae-small-cs" # Hugging Face link
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]
# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extract CLS token embeddings
similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)
Funcionalidades
- Búsqueda de similitud
- Recuperación de información
- Agrupamiento
- Clasificación
Casos de uso
- Búsqueda de similitud
- Recuperación de información
- Agrupamiento
- Clasificación