labse-gguf
El modelo de incrustación de oraciones BERT agnóstico del lenguaje codifica texto en vectores de alta dimensión. El modelo está entrenado y optimizado para producir representaciones similares exclusivamente para pares de oraciones bilingües que son traducciones entre sí. Así que puede utilizarse para buscar traducciones de una oración en un corpus más grande. Este repositorio contiene archivos en formato GGUF para el modelo de incrustación labse. Estos archivos fueron convertidos y cuantizados con llama.cpp PR 5500, commit 34aa045de, en una RTX 4090 de consumo. Este modelo soporta hasta 512 tokens de contexto.
Como usar
Ejemplo de Uso con llama.cpp
./embedding -ngl 99 -m [filepath-to-gguf].gguf -p 'search_query: What is TSNE?'
También puedes enviar un lote de textos para incrustar, siempre que el número total de tokens no exceda la longitud del contexto. Solo se muestran las tres primeras incrustaciones en el ejemplo de incrustación. texts.txt:
search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?
Calcular múltiples incrustaciones:
./embedding -ngl 99 -m [filepath-to-gguf].gguf -f texts.txt
Ejemplo de Uso con LM Studio
Descargar la versión beta 0.2.19 desde aquí: Windows MacOS Linux
Una vez instalada, abre la aplicación. La pantalla principal debería verse así:
Buscar 'ChristianAzinn' en la barra de búsqueda principal o ir a la pestaña 'Search' en el menú de la izquierda y buscar el nombre allí.
Seleccionar tu modelo de los que aparecen (este ejemplo usa bge-small-en-v1.5-gguf) y seleccionar la cuantización que quieres descargar. Como este modelo es bastante pequeño, recomiendo Q8_0, si no fp16/32. Generalmente, cuanto más bajo bajes en la lista (o cuanto más grande sea el número), más grande será el archivo y mejor será el rendimiento.
Verás una marca de verificación verde y la palabra 'Downloaded' una vez que el modelo se haya descargado correctamente, lo que puede tardar un tiempo dependiendo de la velocidad de tu red.
Una vez que este modelo haya terminado de descargarse, navega a la pestaña 'Local Server' en el menú de la izquierda y abre el cargador para modelos de incrustación de texto. Este cargador no aparece antes de la versión 0.2.19, así que asegúrate de haber descargado la versión correcta.
Selecciona el modelo que acabas de descargar en el menú desplegable que aparece para cargarlo. Puede que necesites jugar con las configuraciones en el menú de la derecha, como 'gpu offload' si no cabe completamente en la VRAM.
Todo lo que queda por hacer es presionar el botón 'Start Server':
Y si ves texto como el que se muestra a continuación en la consola, ¡estás listo para empezar! Puedes usar esto como un reemplazo en aplicaciones que requieren la API de incrustaciones de OpenAI, o puedes consultar directamente el punto final para probarlo.
Ejemplo de solicitud curl al punto final de la API:
curl http://localhost:1234/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"input": "Your text string goes here",
"model": "model-identifier-here"
}'
Para más información, consulta la documentación de incrustación de texto de LM Studio.
Funcionalidades
- Codificación de texto en vectores de alta dimensión
- Optimizado para pares de oraciones bilingües
- Soporte de hasta 512 tokens de contexto
- Archivos en formato GGUF
Casos de uso
- Minería de traducciones de una oración en un corpus más grande
- Codificación de oraciones bilingües en representaciones de vectores similares
- Reemplazo de la API de incrustaciones de OpenAI en aplicaciones