mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues

mano-wii

Similitud de oraciones

Este es un modelo de sentence-transformers: Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para tareas como agrupación o búsqueda semántica. Es una versión ajustada de BAAI_bge-base-en-v1.5. Está especializado en encontrar problemas relacionados reportados en https://projects.blender.org/. Fue entrenado con más de 3650 ejemplos de problemas con entre 1 y 12 duplicados.

Como usar

Usar este modelo se vuelve fácil cuando tienes sentence-transformers instalado:
pip install -U sentence-transformers

from sentence_transformers import SentenceTransformer

sentences = ["Esta es una oración de ejemplo", "Cada oración es convertida"]

model = SentenceTransformer('mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues')
embeddings = model.encode(sentences)
print(embeddings)

Sin sentence-transformers, puedes usar el modelo así: Primero, debes pasar tu entrada a través del modelo transformer, luego debes aplicar la operación de pooling correcta sobre los embeddings de palabras contextualizadas.
from transformers import AutoTokenizer, AutoModel
import torch

def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]

# Oraciones para las cuales queremos embeddings de oración
sentences = ['Esta es una oración de ejemplo', 'Cada oración es convertida']

# Carga el modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues')
model = AutoModel.from_pretrained('mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues')

# Tokeniza las oraciones
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Calcula los embeddings de los tokens
with torch.no_grad():
    model_output = model(**encoded_input)

# Realiza el pooling. En este caso, pooling de cls.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Embeddings de las oraciones:")
print(sentence_embeddings)

Funcionalidades

Transforma oraciones y párrafos en vectores densos de 768 dimensiones.
Puede ser utilizado para tareas como la agrupación o búsqueda semántica.
Especializado en encontrar problemas relacionados reportados en Blender.

Casos de uso

Agrupación de textos similares.
Búsqueda semántica en estructuras de datos textuales.
Identificación de problemas relacionados en plataformas de reportes como Blender.