Sami92/multiling-e5-large-instruct-claim-matching
Sami92
Similitud de oraciones
Modelo SentenceTransformer basado en intfloat/multilingual-e5-large-instruct. Este modelo está afinado a partir de intfloat/multilingual-e5-large-instruct. Mapea oraciones y párrafos a un espacio vectorial denso de 1024 dimensiones y se puede usar para la coincidencia de declaraciones. La coincidencia de declaraciones es la tarea de encontrar textos semánticamente idénticos para un texto de consulta dado. Encuentra aplicación en el contexto de la verificación automática de hechos, para lo cual es importante identificar copias de la misma declaración (desinformación) o declaraciones previamente verificadas.
Como usar
Instalar Sentence Transformers library:
pip install -U sentence-transformers
Cargar este modelo y ejecutar inferencias:
from sentence_transformers import SentenceTransformer
def embed_query(texts:list, model):
return model.encode(sentences=texts,
prompt="Instruct: Retrieve semantically similar text.\nQuery: ",
batch_size=32,
show_progress_bar=True,
normalize_embeddings=False,
convert_to_numpy=True,
device="cuda")
def embed_documents(texts:list, model):
return model.encode(sentences=texts,
batch_size=1024,
show_progress_bar=True,
normalize_embeddings=False,
convert_to_numpy=True,
device="cuda")
# Descargar del Hugging Face Hub
model = SentenceTransformer("Sami92/multiling-e5-large-instruct-claim-matching")
# Ejecutar inferencia
queries = ['Die Pentagon-Mitarbeiter wechseln zum Überstundenmodus Internetnutzer stellten fest, dass es in der Gegend, in der sich die Abteilung befindet, einen starken Anstieg der Bestellungen für Pizzalieferungen gab und gleichzeitig die örtlichen Bars leer waren. Zuletzt geschah dies im April, kurz vor und nach dem iranischen Angriff auf Israel. Dann bemerkte The Sun die hohe Auslastung der Pizzerien von Papa Johns mit Bestellungen vom Pentagon. Unsere Website Unser Kanal auf Englisch ',]
documents = [
'Erinnern Sie sich an meinen Beitrag von vorhin über die massiven Cyberausfälle. Verbinden Sie das alles con lo que hemos dicho desde "Shot Heard Round the World" el sábado. BQQM BQQM BQQM BQQM 1776 1776 BRICS',
'Hoy son evidentemente aviones más antiguos en el cielo que o bien tienen problemas con las turbinas o ya vuelan eléctricamente... Todas las mentiras son tan obvias que ya duele ignorarlas conscientemente o no reconocerlas... Quieres la verdad ',
]
query_embeddings = embed_documents(texts=queries, model=model)
doc_embeddings = embed_query(texts=documents, model=model)
# Obtener los puntajes de similitud para las incrustaciones
similarities = model.similarity(query_embeddings, doc_embeddings)
Funcionalidades
- Transformador de oraciones
- Modelo base: intfloat/multilingual-e5-large-instruct
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 1024 tokens
- Función de similitud: Similitud coseno
Casos de uso
- Identificación de copias de la misma declaración
- Verificación automática de hechos
- Coincidencia de textos semánticamente similares