PM-AI/sts_paraphrase_xlm-roberta-base_de-en

PM-AI

Similitud de oraciones

Modelo de transformador para la similitud textual semántica (STS) para oraciones/textos en alemán e inglés. Las salidas de las incrustaciones pueden usarse para búsqueda semántica, paráfrasis y recuperación con similitud coseno. El modelo es aplicable a oraciones/textos mixtos en alemán-inglés, pero también solo en inglés y solo en alemán. El modelo se puede usar fácilmente con la biblioteca de transformadores de oraciones.

Como usar

Este modelo está basado en un enfoque de entrenamiento de 2020 por Philip May, quién publicó el modelo T-Systems-onsite/cross-en-de-roberta-sentence-transformer. Actualizamos este enfoque con un nuevo modelo base para ajuste fino y algunas extensiones a los datos de entrenamiento. Para el ajuste fino, estamos usando el guion de entrenamiento de SBERT training_stsbenchmark_continue_training.py. Un cambio en este guion de entrenamiento es que cuando un par de oraciones consiste en textos idénticos, la puntuación se establece en 5.0 (máximo). No tiene sentido decir que oraciones idénticas tienen una puntuación de 4.8 o 4.9.
# Ejemplo de uso del código
from transformers import AutoModel
model = AutoModel.from_pretrained('PM-AI/sts_paraphrase_xlm-roberta-base_de-en')

Funcionalidades

Similitud Semántica de Oraciones
Transformadores
PyTorch
Alemán
Inglés
xlm-roberta
extracción de características
similitud textual semántica
sts
búsqueda semántica
similitud de oraciones
paráfrasis
transformador de oraciones
inferencia de incrustaciones de texto
compatible con puntos de inferencia
arxiv:2004.09813
licencia: mit
región: EE. UU.

Casos de uso

Búsqueda semántica
Parafraseo
Recuperación con similitud coseno
Oraciones/textos mixtos en alemán-inglés
Oraciones/textos solo en inglés
Oraciones/textos solo en alemán