Seznam/retromae-small-cs

Seznam

Similitud de oraciones

RetroMAE-Small es un modelo BERT-small preentrenado con el objetivo RetroMAE sobre un corpus web checo. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos de incrustaciones semánticas checas de alta calidad. Estos modelos funcionan bien en varias tareas de procesamiento de lenguaje natural, incluyendo búsqueda de similitud, recuperación, agrupación y clasificación. Para más detalles o resultados de evaluación, por favor visite el artículo asociado o el repositorio de GitHub.

Como usar

Puedes cargar y usar el modelo de la siguiente manera:
import torch
from transformers import AutoModel, AutoTokenizer

model_name = "Seznam/retromae-small-cs" # enlace de Hugging Face
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]

# Tokeniza los textos de entrada
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extraer las incrustaciones del token CLS

similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)

Funcionalidades

RetroMAE
BERT-small
Corpus web checo
Incrustaciones semánticas de alta calidad
Varias tareas de procesamiento de lenguaje natural
Búsqueda de similitud
Recuperación
Agrupación
Clasificación

Casos de uso

Búsqueda de similitud
Recuperación de información
Agrupación de documentos
Clasificación de texto