e5-large-v2-gguf
Este repositorio contiene archivos en formato GGUF para el modelo de embedding e5-large-v2. Estos archivos fueron convertidos y cuantizados con llama.cpp PR 5500, commit 34aa045de, en una RTX 4090 de consumidor. Este modelo permite hasta 512 tokens de contexto.
Como usar
Ejemplo de uso con llama.cpp
Para calcular una única embedding, construye llama.cpp y ejecuta:
./embedding -ngl 99 -m [ruta-al-archivo-gguf].gguf -p 'search_query: What is TSNE?'
También puedes enviar un lote de textos para embebir, siempre que el número total de tokens no exceda la longitud del contexto. Solo se muestran las tres primeras embeddings, como ejemplo.
texts.txt:
search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?
Calcular múltiples embeddings:
./embedding -ngl 99 -m [ruta-al-archivo-gguf].gguf -f texts.txt
Ejemplo de uso con LM Studio
Descarga la versión beta 0.2.19 desde aquí: Windows, MacOS, Linux
Una vez instalado, abre la aplicación. El inicio debería verse así:
Busca 'ChristianAzinn' en la barra de búsqueda principal o ve a la pestaña 'Búsqueda' en el menú de la izquierda y busca el nombre allí.
Selecciona el modelo de los que aparecen (en este ejemplo usa bge-small-en-v1.5-gguf) y selecciona qué cuantización deseas descargar. Ya que este modelo es bastante pequeño, se recomienda Q8_0, si no es f16/32. Generalmente, cuanto más abajo en la lista (o cuanto mayor es el número), más grande es el archivo y mejor es el rendimiento.
Verás una marca verde y la palabra 'Downloaded' una vez que el modelo se haya descargado con éxito, lo que puede tardar algún tiempo dependiendo de la velocidad de tu red.
Una vez que el modelo haya terminado de descargarse, navega hasta la pestaña 'Servidor Local' en el menú de la izquierda y abre el cargador para modelos de embedding de texto. Este cargador no aparece antes de la versión 0.2.19, así que asegúrate de haber descargado la versión correcta.
Selecciona el modelo que acabas de descargar del desplegable que aparece para cargarlo. Es posible que necesites ajustar configuraciones en el menú del lado derecho, como la descarga en GPU si no cabe completamente en VRAM.
Todo lo que queda por hacer es presionar el botón 'Iniciar servidor':
Y si ves texto como el que se muestra a continuación en la consola, ¡estás listo! Puedes usar esto como un reemplazo directo para la API de embeddings de OpenAI en cualquier aplicación que lo requiera, o puedes consultar el endpoint directamente para probarlo.
Ejemplo de solicitud curl al endpoint de la API:
curl http://localhost:1234/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"input": "Your text string goes here",
"model": "model-identifier-here"
}'
Para más información, consulta la documentación de embedding de texto de LM Studio.
Funcionalidades
- 24 capas
- Tamaño del embedding: 1024
- Soporte para hasta 512 tokens de contexto
- Compatible con llama.cpp y LM Studio
Casos de uso
- Cálculo de embeddings de texto
- Reemplazo de la API de embeddings de OpenAI
- Procesamiento de lotes de textos para embeddings