pavanmantha/bge-base-en-bioembed768

pavanmantha

Similitud de oraciones

Este es un modelo de sentence-transformers afinado a partir de BAAI/bge-base-en-v1.5. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser usado para similitud textual semántica, búsqueda semántica, minería de parafraseo, clasificación de texto, agrupación y más.

Como usar

Primero instala la biblioteca de Sentence Transformers:
pip install -U sentence-transformers

Luego puedes cargar este modelo y ejecutar la inferencia.
from sentence_transformers import SentenceTransformer

# Descargar desde el 🤗 Hub
model = SentenceTransformer("pavanmantha/bge-base-en-bioembed768")
# Ejecutar inferencia
sentences = [
    "Basset es un paquete de código abierto que aplica CNNs para aprender la actividad funcional de secuencias de ADN a partir de datos genómicos. Basset fue entrenado en un compendio de sitios genómicos accesibles mapeados en 164 tipos de células por DNase-seq, y demostró una mayor precisión predictiva que métodos anteriores. Las predicciones de Basset para el cambio en la accesibilidad entre alelos variantes fueron mucho mayores para SNPs del estudio de asociación de genoma completo (GWAS) que probablemente sean causales en comparación con los SNPs vecinos en desequilibrio de ligamiento con ellos. Con Basset, un investigador puede realizar un solo ensayo de secuenciación en su tipo de célula de interés y simultáneamente aprender el código de accesibilidad de la cromatina de esa célula y anotar cada mutación en el genoma con su influencia en la accesibilidad presente y potencial latente de accesibilidad. Por lo tanto, Basset ofrece un enfoque computacional poderoso para anotar e interpretar el genoma no codificante.",
    'Describe la aplicabilidad de Basset en el contexto del aprendizaje profundo',
    '¿Cuál es el agente causante de la "enfermedad de Panamá" que afecta a los plátanos?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo de Transformadores de Oraciones
Modelo base: BAAI/bge-base-en-v1.5
Longitud Máxima de Secuencia: 512 tokens
Dimensionalidad de Salida: 768 tokens
Función de Similitud: Similitud Coseno
Idioma: Inglés
Licencia: Apache-2.0

Casos de uso

Similitud textual semántica
Búsqueda semántica
Minería de parafraseo
Clasificación de texto
Agrupación