Embeddings Matryoshka de Proteínas
monsoon-nlp
Similitud de oraciones
El modelo genera un embedding para proteínas de entrada. Fue entrenado utilizando la pérdida Matryoshka, por lo que los embeddings acortados se pueden usar para búsquedas más rápidas y otras tareas. Las entradas utilizan códigos IUPAC-IUB donde las letras de la A a la Z se asignan a aminoácidos. Por ejemplo: 'M A R N W S F R V'. El modelo base fue Rostlab/prot_bert_bfd. Se entrenó un modelo sentence-transformers en la similitud coseno de los embeddings de UniProt.
Como usar
Instala estas dependencias:
pip install -U sentence-transformers datasets
Generando embeddings:
from sentence_transformers import SentenceTransformer
sequences = ["M S L E Q K...", "M A R N W S F R V..."]
model = SentenceTransformer('monsoon-nlp/protein-matryoshka-embeddings')
embeddings = model.encode(sentences)
print(embeddings)
Funcionalidades
- Transformadores de frases
- Extracción de características
- Modelo de lenguaje de proteínas
- Inferencia de embeddings de texto
Casos de uso
- Generación de embeddings para proteínas de entrada
- Optimización de búsquedas usando embeddings acortados
- Evaluación en tareas de regresión y clasificación
- Proyectos de colaboración en clasificación de proteínas