Bloomz-560m Reordenamiento

cmarkea

Similitud de oraciones

Este modelo de reordenamiento está construido a partir del modelo cmarkea/bloomz-560m-dpo-chat y tiene como objetivo medir la correspondencia semántica entre una pregunta (consulta) y un contexto. Con su puntuación normalizada, ayuda a filtrar las coincidencias consulta/contexto que devuelve un recuperador en un contexto ODQA (Respuesta a Preguntas de Dominio Abierto). Además, permite reordenar los resultados utilizando un enfoque de modelado más eficiente que el del recuperador. Sin embargo, este tipo de modelado no es adecuado para búsquedas directas en base de datos debido a su alto costo computacional. Desarrollado para ser agnóstico al idioma, este modelo soporta tanto francés como inglés. En consecuencia, puede puntuar eficazmente en un contexto multilingüe sin ser influenciado por su comportamiento en un contexto monolingüe (inglés o francés).

Como usar

El siguiente ejemplo se basa en la API Pipeline de la biblioteca Transformers.
from transformers import pipeline

reranker = pipeline(
    task='feature-extraction',
    model='cmarkea/bloomz-560m-reranking',
    top_k=None
)

query: str
contexts: List[str]

similarities = reranker([
    dict(
        text=context,  # el modelo fue entrenado con el contexto en `text`
        text_pair=query  # y la consulta en el argumento `text_pair`.
    )
    for context in contexts
])

contexts_reranked = sorted(
    filter(
        lambda x: x[0]['label'] == "LABEL_1",
        zip(similarities, contexts)
    ),
    key=lambda x: x[0],
    reverse=True
)

score, contexts_cleaned = zip(
    *filter(
        lambda x: x[0] >= 0.8,
        contexts_reranked
    )
)

Funcionalidades

Agnóstico al idioma: Soporte para inglés y francés
Clasificación de texto
Reordenamiento semántico de consulta/contexto
Compatibilidad con AutoTrain
Compatibilidad con puntos de inferencia
Uso de PyTorch y Safetensors
Basado en la arquitectura de Transformers

Casos de uso

Filtrado y reordenamiento de resultados de búsqueda para aplicaciones de RAG (Recuperación y Generación de Respuestas)
Puntuación de correspondencia semántica en contextos multilingües
Clasificación de texto
Evaluación de la relevancia de contextos para preguntas de dominio abierto