gte-micro-v2

Mihaiii
Similitud de oraciones

Este es un modelo distilado de gte-tiny.

Como usar

Uso con Sentence-Transformers

Es fácil utilizar este modelo cuando tienes sentence-transformers instalado:

pip install -U sentence-transformers

Luego puedes usar el modelo de la siguiente manera:

from sentence_transformers import SentenceTransformer
sentences = ["Este es un ejemplo de oración", "Cada oración es convertida"]

model = SentenceTransformer('Mihaiii/gte-micro-v2')
embeddings = model.encode(sentences)
print(embeddings)

Uso con HuggingFace Transformers

Sin sentence-transformers, puedes usar el modelo de la siguiente manera: Primero, pasas tu entrada a través del modelo transformer, luego tienes que aplicar la operación de pooling correcta sobre las embeddings de palabra contextualizadas.

from transformers import AutoTokenizer, AutoModel
import torch

#Mean Pooling - Tener en cuenta la máscara de atención para un promedio correcto
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #El primer elemento de model_output contiene todas las embeddings de tokens
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Oraciones para las que queremos embeddings de oración
sentences = ['Este es un ejemplo de oración', 'Cada oración es convertida']

# Cargar modelo desde el HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('Mihaiii/gte-micro-v2')
model = AutoModel.from_pretrained('Mihaiii/gte-micro-v2')

# Tokenizar oraciones
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Calcular embeddings de tokens
with torch.no_grad():
    model_output = model(**encoded_input)

# Realizar pooling. En este caso, pooling de media.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Embeddings de oraciones:")
print(sentence_embeddings)

Funcionalidades

Similaridad de Oraciones
Transformadores de oraciones
ONNX
Safetensors
BERT
Extracción de características
gte
MTEB
Resultados de Evaluación
Inferencia de embeddings de texto
Puntos finales de Inferencia

Casos de uso

Completar automáticamente texto semántico