Seznam/dist-mpnet-paracrawl-cs-en

Seznam

Similitud de oraciones

Dist-MPNet-Paracrawl es un modelo BERT-pequeño distilado del modelo sentence-transformers/all-mpnet-base-v2, utilizando el conjunto de datos paralelo cs-en ParaCrawl para su entrenamiento. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos de incrustaciones semánticas checas de alta calidad. Estos modelos funcionan bien en varias tareas de procesamiento de lenguaje natural, incluyendo búsqueda de similitud, recuperación, agrupación y clasificación. Para obtener más detalles o resultados de evaluación, visite el artículo asociado o el repositorio de GitHub.

Como usar

Puedes cargar y usar el modelo así:
import torch
from transformers import AutoModel, AutoTokenizer

model_name = "Seznam/retromae-small-cs" # Enlace de Hugging Face
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]

# Tokenizar los textos de entrada
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extraer las incrustaciones del token CLS

similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)

Funcionalidades

Similitud de oraciones
Transformadores
PyTorch
Extracción de características
Incrustaciones de texto
Inferencia

Casos de uso

Búsqueda de similitud
Recuperación de información
Agrupación de textos
Clasificación de textos