Bloomz-560m Reordenamiento
Este modelo de reordenamiento está construido a partir del modelo cmarkea/bloomz-560m-dpo-chat y tiene como objetivo medir la correspondencia semántica entre una pregunta (consulta) y un contexto. Con su puntuación normalizada, ayuda a filtrar las coincidencias consulta/contexto que devuelve un recuperador en un contexto ODQA (Respuesta a Preguntas de Dominio Abierto). Además, permite reordenar los resultados utilizando un enfoque de modelado más eficiente que el del recuperador. Sin embargo, este tipo de modelado no es adecuado para búsquedas directas en base de datos debido a su alto costo computacional. Desarrollado para ser agnóstico al idioma, este modelo soporta tanto francés como inglés. En consecuencia, puede puntuar eficazmente en un contexto multilingüe sin ser influenciado por su comportamiento en un contexto monolingüe (inglés o francés).
Como usar
El siguiente ejemplo se basa en la API Pipeline de la biblioteca Transformers.
from transformers import pipeline
reranker = pipeline(
task='feature-extraction',
model='cmarkea/bloomz-560m-reranking',
top_k=None
)
query: str
contexts: List[str]
similarities = reranker([
dict(
text=context, # el modelo fue entrenado con el contexto en `text`
text_pair=query # y la consulta en el argumento `text_pair`.
)
for context in contexts
])
contexts_reranked = sorted(
filter(
lambda x: x[0]['label'] == "LABEL_1",
zip(similarities, contexts)
),
key=lambda x: x[0],
reverse=True
)
score, contexts_cleaned = zip(
*filter(
lambda x: x[0] >= 0.8,
contexts_reranked
)
)
Funcionalidades
- Agnóstico al idioma: Soporte para inglés y francés
- Clasificación de texto
- Reordenamiento semántico de consulta/contexto
- Compatibilidad con AutoTrain
- Compatibilidad con puntos de inferencia
- Uso de PyTorch y Safetensors
- Basado en la arquitectura de Transformers
Casos de uso
- Filtrado y reordenamiento de resultados de búsqueda para aplicaciones de RAG (Recuperación y Generación de Respuestas)
- Puntuación de correspondencia semántica en contextos multilingües
- Clasificación de texto
- Evaluación de la relevancia de contextos para preguntas de dominio abierto