tomaarsen/xlm-roberta-base-multilingual-en-ar-fr-de-es-tr-it
tomaarsen
Similitud de oraciones
Este es un modelo de transformadores de oraciones afinado a partir de FacebookAI/xlm-roberta-base en los conjuntos de datos en-ar, en-fr, en-de, en-es, en-tr y en-it. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para similitud semántica textual, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento, y más.
Como usar
Cómo usar el modelo, incluyendo fragmentos de código:
from sentence_transformers import SentenceTransformer
# Descarga desde el Hub de 🤗
model = SentenceTransformer("tomaarsen/xlm-roberta-base-multilingual-en-ar-fr-de-es-tr-it")
# Ejecutar inferencia
sentences = [
'Wir sind eins.',
'Das versuchen wir zu bieten.',
'Ihre Gehirne sind ungefähr 100 Millionen Mal komplizierter.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo de transformadores de oraciones basado en FacebookAI/xlm-roberta-base.
- Longitud máxima de secuencia: 128 tokens.
- Dimensionalidad de salida: 768 tokens.
- Función de similitud: Similitud de coseno.
- Entrenado en conjuntos de datos multilingües: en-ar, en-fr, en-de, en-es, en-tr, en-it.
Casos de uso
- Similitud semántica textual
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupamiento