mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues
mano-wii
Similitud de oraciones
Este es un modelo de sentence-transformers: Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para tareas como agrupación o búsqueda semántica. Es una versión ajustada de BAAI_bge-base-en-v1.5. Está especializado en encontrar problemas relacionados reportados en https://projects.blender.org/. Fue entrenado con más de 3650 ejemplos de problemas con entre 1 y 12 duplicados.
Como usar
Usar este modelo se vuelve fácil cuando tienes sentence-transformers instalado:
pip install -U sentence-transformers
from sentence_transformers import SentenceTransformer
sentences = ["Esta es una oración de ejemplo", "Cada oración es convertida"]
model = SentenceTransformer('mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues')
embeddings = model.encode(sentences)
print(embeddings)
Sin sentence-transformers, puedes usar el modelo así: Primero, debes pasar tu entrada a través del modelo transformer, luego debes aplicar la operación de pooling correcta sobre los embeddings de palabras contextualizadas.
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output, attention_mask):
return model_output[0][:,0]
# Oraciones para las cuales queremos embeddings de oración
sentences = ['Esta es una oración de ejemplo', 'Cada oración es convertida']
# Carga el modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues')
model = AutoModel.from_pretrained('mano-wii/BAAI_bge-base-en-v1.5-tunned-for-blender-issues')
# Tokeniza las oraciones
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Calcula los embeddings de los tokens
with torch.no_grad():
model_output = model(**encoded_input)
# Realiza el pooling. En este caso, pooling de cls.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])
print("Embeddings de las oraciones:")
print(sentence_embeddings)
Funcionalidades
- Transforma oraciones y párrafos en vectores densos de 768 dimensiones.
- Puede ser utilizado para tareas como la agrupación o búsqueda semántica.
- Especializado en encontrar problemas relacionados reportados en Blender.
Casos de uso
- Agrupación de textos similares.
- Búsqueda semántica en estructuras de datos textuales.
- Identificación de problemas relacionados en plataformas de reportes como Blender.