l3cube-pune/hindi-sentence-bert-nli
Este es un modelo HindBERT (l3cube-pune/hindi-bert-v2) entrenado en el conjunto de datos NLI. Lanzado como parte del proyecto MahaNLP. Este modelo multilingüe admite los principales idiomas indicios y capacidades de cruce de idiomas. Un mejor modelo de similitud de oraciones (versión ajustada de este modelo) se comparte en el enlace proporcionado. Más detalles sobre el conjunto de datos, modelos y resultados base se pueden encontrar en nuestro artículo.
Como usar
Uso (Sentence-Transformers)
Usar este modelo se vuelve fácil cuando tienes instalado sentence-transformers:
pip install -U sentence-transformers
Entonces puedes usar el modelo así:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)
Uso (HuggingFace Transformers)
Sin sentence-transformers, puedes usar el modelo así: Primero, pasas tu entrada a través del modelo transformer, luego tienes que aplicar la operación de pooling correcta sobre las incrustaciones de palabras contextualizadas.
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output, attention_mask):
return model_output[0][:,0]
# Oraciones para las que queremos incrustaciones de oraciones
sentences = ['This is an example sentence', 'Each sentence is converted']
# Cargar el modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')
# Tokenizar oraciones
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Calcular incrustaciones de tokens
with torch.no_grad():
model_output = model(**encoded_input)
# Realizar pooling. En este caso, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])
print("Incrustaciones de oraciones:")
print(sentence_embeddings)
Funcionalidades
- Similitud de oraciones
- Transformadores de oraciones
- PyTorch
- Transformadores
- Extracción de características
- Inferencia de incrustaciones de texto
Casos de uso
- Búsqueda semántica
- Agrupamiento de oraciones
- Representaciones de oraciones