sdadas/st-polish-paraphrase-from-distilroberta

sdadas
Similitud de oraciones

Este es un modelo de sentence-transformers: Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y se puede usar para tareas como agrupación o búsqueda semántica.

Como usar

Uso (Sentence-Transformers)

Instalar sentence-transformers:

pip install -U sentence-transformers 

Luego puede usar el modelo de esta manera:

from sentence_transformers import SentenceTransformer 
sentences = ["Esta es una oración de ejemplo", "Cada oración es convertida"] 
model = SentenceTransformer('sdadas/st-polish-paraphrase-from-distilroberta') 
embeddings = model.encode(sentences) 
print(embeddings) 

Uso (Transformers de Hugging Face)

Sin sentence-transformers, puede usar el modelo de esta manera: Primero, pasa su entrada a través del modelo transformer, luego tiene que aplicar la operación de pooling correcta sobre los embeddings de palabras contextualizadas.

from transformers import AutoTokenizer, AutoModel 
import torch 
# Mean Pooling - Tiene en cuenta la máscara de atención para el promedio correcto 
def mean_pooling(model_output, attention_mask): 
  token_embeddings = model_output[0] # El primer elemento de model_output contiene todos los embeddings de tokens 
  input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float() 
  return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9) 
# Oraciones para las que queremos embeddings de oraciones 
sentences = ['Esta es una oración de ejemplo', 'Cada oración es convertida'] 
# Cargar modelo desde Hugging Face Hub 
tokenizer = AutoTokenizer.from_pretrained('sdadas/st-polish-paraphrase-from-distilroberta') 
model = AutoModel.from_pretrained('sdadas/st-polish-paraphrase-from-distilroberta') 
# Tokenizar oraciones 
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt') 
# Computar embeddings de tokens 
with torch.no_grad(): 
  model_output = model(**encoded_input) 
# Realizar pooling. En este caso, mean pooling. 
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask']) 
print("Embeddings de oraciones:") 
print(sentence_embeddings) 

Funcionalidades

Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones
Compatible con sentence-transformers
Compatible con transformers de Hugging Face
Soporte para PyTorch y TensorFlow
Uso de safetensors
Extracción de características
Compatible con AutoTrain
Inferencia de embeddings de texto
Compatibilidad con endpoints de inferencia

Casos de uso

Agrupación de oraciones
Búsqueda semántica