PM-AI/sts_paraphrase_xlm-roberta-base_de-en
Modelo de transformador para la similitud textual semántica (STS) para oraciones/textos en alemán e inglés. Las salidas de las incrustaciones pueden usarse para búsqueda semántica, paráfrasis y recuperación con similitud coseno. El modelo es aplicable a oraciones/textos mixtos en alemán-inglés, pero también solo en inglés y solo en alemán. El modelo se puede usar fácilmente con la biblioteca de transformadores de oraciones.
Como usar
Este modelo está basado en un enfoque de entrenamiento de 2020 por Philip May, quién publicó el modelo T-Systems-onsite/cross-en-de-roberta-sentence-transformer. Actualizamos este enfoque con un nuevo modelo base para ajuste fino y algunas extensiones a los datos de entrenamiento. Para el ajuste fino, estamos usando el guion de entrenamiento de SBERT training_stsbenchmark_continue_training.py. Un cambio en este guion de entrenamiento es que cuando un par de oraciones consiste en textos idénticos, la puntuación se establece en 5.0 (máximo). No tiene sentido decir que oraciones idénticas tienen una puntuación de 4.8 o 4.9.
# Ejemplo de uso del código
from transformers import AutoModel
model = AutoModel.from_pretrained('PM-AI/sts_paraphrase_xlm-roberta-base_de-en')
Funcionalidades
- Similitud Semántica de Oraciones
- Transformadores
- PyTorch
- Alemán
- Inglés
- xlm-roberta
- extracción de características
- similitud textual semántica
- sts
- búsqueda semántica
- similitud de oraciones
- paráfrasis
- transformador de oraciones
- inferencia de incrustaciones de texto
- compatible con puntos de inferencia
- arxiv:2004.09813
- licencia: mit
- región: EE. UU.
Casos de uso
- Búsqueda semántica
- Parafraseo
- Recuperación con similitud coseno
- Oraciones/textos mixtos en alemán-inglés
- Oraciones/textos solo en inglés
- Oraciones/textos solo en alemán