Embeddings Matryoshka de Proteínas

monsoon-nlp

Similitud de oraciones

El modelo genera un embedding para proteínas de entrada. Fue entrenado utilizando la pérdida Matryoshka, por lo que los embeddings acortados se pueden usar para búsquedas más rápidas y otras tareas. Las entradas utilizan códigos IUPAC-IUB donde las letras de la A a la Z se asignan a aminoácidos. Por ejemplo: 'M A R N W S F R V'. El modelo base fue Rostlab/prot_bert_bfd. Se entrenó un modelo sentence-transformers en la similitud coseno de los embeddings de UniProt.

Como usar

Instala estas dependencias:
pip install -U sentence-transformers datasets

Generando embeddings:
from sentence_transformers import SentenceTransformer
sequences = ["M S L E Q K...", "M A R N W S F R V..."]

model = SentenceTransformer('monsoon-nlp/protein-matryoshka-embeddings')
embeddings = model.encode(sentences)
print(embeddings)

Funcionalidades

Transformadores de frases
Extracción de características
Modelo de lenguaje de proteínas
Inferencia de embeddings de texto

Casos de uso

Generación de embeddings para proteínas de entrada
Optimización de búsquedas usando embeddings acortados
Evaluación en tareas de regresión y clasificación
Proyectos de colaboración en clasificación de proteínas