tomaarsen/xlm-roberta-base-multilingual-en-ar-fr-de-es-tr-it

tomaarsen

Similitud de oraciones

Este es un modelo de transformadores de oraciones afinado a partir de FacebookAI/xlm-roberta-base en los conjuntos de datos en-ar, en-fr, en-de, en-es, en-tr y en-it. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para similitud semántica textual, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento, y más.

Como usar

Cómo usar el modelo, incluyendo fragmentos de código:
from sentence_transformers import SentenceTransformer

# Descarga desde el Hub de 🤗
model = SentenceTransformer("tomaarsen/xlm-roberta-base-multilingual-en-ar-fr-de-es-tr-it")
# Ejecutar inferencia
sentences = [
 'Wir sind eins.',
 'Das versuchen wir zu bieten.',
 'Ihre Gehirne sind ungefähr 100 Millionen Mal komplizierter.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Modelo de transformadores de oraciones basado en FacebookAI/xlm-roberta-base.
Longitud máxima de secuencia: 128 tokens.
Dimensionalidad de salida: 768 tokens.
Función de similitud: Similitud de coseno.
Entrenado en conjuntos de datos multilingües: en-ar, en-fr, en-de, en-es, en-tr, en-it.

Casos de uso

Similitud semántica textual
Búsqueda semántica
Minería de paráfrasis
Clasificación de textos
Agrupamiento