gist-small-embedding-v0-gguf

ChristianAzinn

Similitud de oraciones

El modelo está afinado sobre la base del BAAI/bge-small-en-v1.5 utilizando el conjunto de datos MEDI aumentado con tripletas extraídas del conjunto de datos de entrenamiento de clasificación MTEB (excluyendo datos de la tarea de clasificación de polaridad de Amazon). El modelo no requiere ninguna instrucción para generar embeddings. Esto significa que las consultas para tareas de recuperación se pueden codificar directamente sin necesidad de redactar instrucciones. Este repositorio contiene archivos en formato GGUF para el modelo de embedding gist-small-embedding-v0. Estos archivos fueron convertidos y cuantizados con la PR 5500 de llama.cpp, commit 34aa045de, en una RTX 4090 de consumo. Este modelo soporta hasta 512 tokens de contexto. Compatibilidad: Estos archivos son compatibles con llama.cpp a partir del commit 4524290e8, así como con LM Studio a partir de la versión 0.2.19.

Como usar

Ejemplo de Uso con llama.cpp
./embedding -ngl 99 -m [filepath-to-gguf].gguf -p 'search_query: What is TSNE?'

Puedes también enviar un lote de textos para embedir, siempre y cuando el número total de tokens no exceda la longitud del contexto. Solo se muestran los primeros tres embeddings en el ejemplo de embedding.
texts.txt:
search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?

Calcular múltiples embeddings:
./embedding -ngl 99 -m [filepath-to-gguf].gguf -f texts.txt

Ejemplo de Uso con LM Studio


Descarga la versión beta 0.2.19 desde aquí: Windows MacOS Linux


Una vez instalado, abre la aplicación. La pantalla de inicio debería verse así:



Busca "ChristianAzinn" en la barra de búsqueda principal o ve a la pestaña "Search" en el menú de la izquierda y busca el nombre allí.


Selecciona tu modelo de los que aparecen (este ejemplo usa bge-small-en-v1.5-gguf) y selecciona qué cuantización deseas descargar. Dado que este modelo es bastante pequeño, recomiendo Q8_0, si no f16/32. Generalmente, cuanto más bajo vayas en la lista (o cuanto más grande sea el número), más grande será el archivo y mejor el rendimiento.


Verás una marca verde y la palabra "Downloaded" una vez que el modelo se haya descargado con éxito. Esto puede tardar algún tiempo dependiendo de la velocidad de tu red.
Una vez que este modelo haya terminado de descargarse, navega a la pestaña "Local Server" en el menú de la izquierda y abre el cargador de modelos de embedding de texto. Este cargador no aparece antes de la versión 0.2.19, así que asegúrate de haber descargado la versión correcta.
Selecciona el modelo que acabas de descargar en el menú desplegable que aparece para cargarlo. Es posible que necesites ajustar configuraciones en el menú del lado derecho, como la descarga de GPU, si no cabe completamente en VRAM.
Todo lo que queda por hacer es presionar el botón "Start Server":
Y si ves texto como el mostrado a continuación en la consola, ¡estás listo para empezar! Puedes usar esto como un reemplazo directo para la API de embeddings de OpenAI en cualquier aplicación que lo requiera, o puedes consultar directamente el endpoint para probarlo.
Ejemplo de solicitud curl al endpoint de la API:
curl http://localhost:1234/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"input": "Your text string goes here",
"model": "model-identifier-here"
}'

Funcionalidades

No requiere instrucciones para generar embeddings.
Soporta hasta 512 tokens de contexto.
Convertido y cuantizado con llama.cpp.
Compatibilidad con llama.cpp y LM Studio.

Casos de uso

Codificación de consultas para tareas de recuperación.
Generación de embeddings para textos de entrada.
Uso como sustituto de la API de embeddings de OpenAI.