Seznam/retromae-small-cs
Seznam
Similitud de oraciones
RetroMAE-Small es un modelo BERT-small preentrenado con el objetivo RetroMAE sobre un corpus web checo. Este modelo fue creado en Seznam.cz como parte de un proyecto para crear modelos de incrustaciones semánticas checas de alta calidad. Estos modelos funcionan bien en varias tareas de procesamiento de lenguaje natural, incluyendo búsqueda de similitud, recuperación, agrupación y clasificación. Para más detalles o resultados de evaluación, por favor visite el artículo asociado o el repositorio de GitHub.
Como usar
Puedes cargar y usar el modelo de la siguiente manera:
import torch
from transformers import AutoModel, AutoTokenizer
model_name = "Seznam/retromae-small-cs" # enlace de Hugging Face
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
input_texts = [
"Dnes je výborné počasí na procházku po parku.",
"Večer si oblíbím dobrý film a uvařím si čaj."
]
# Tokeniza los textos de entrada
batch_dict = tokenizer(input_texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0] # Extraer las incrustaciones del token CLS
similarity = torch.nn.functional.cosine_similarity(embeddings[0], embeddings[1], dim=0)
Funcionalidades
- RetroMAE
- BERT-small
- Corpus web checo
- Incrustaciones semánticas de alta calidad
- Varias tareas de procesamiento de lenguaje natural
- Búsqueda de similitud
- Recuperación
- Agrupación
- Clasificación
Casos de uso
- Búsqueda de similitud
- Recuperación de información
- Agrupación de documentos
- Clasificación de texto