nomic-embed-text-v1-GGUF

nomic-ai
Similitud de oraciones

Este repositorio contiene archivos compatibles con llama.cpp para nomic-embed-text-v1 en formato GGUF. llama.cpp por defecto utiliza 2048 tokens de contexto con estos archivos. Para usar los 8192 tokens completos que Nomic Embed está calibrado, deberá elegir un método de extensión de contexto. El modelo original usa escalado RoPE dinámico NTK-Aware, pero actualmente no está disponible en llama.cpp. Una combinación de YaRN y escalado lineal es un sustituto aceptable. Estos archivos fueron convertidos y cuantizados con llama.cpp PR 5500, commit 34aa045de.

Como usar

Empotrar texto con nomic-embed-text requiere prefijos de instrucción de tarea al comienzo de cada cadena. Por ejemplo, el código a continuación muestra cómo usar el prefijo de consulta de búsqueda para incorporar preguntas de usuario, por ejemplo, en una aplicación RAG.

./embedding -ngl 99 -m nomic-embed-text-v1.f16.gguf -c 8192 -b 8192 --rope-scaling yarn --rope-freq-scale .75 -p 'search_query: What is TSNE?'

También puede enviar un lote de textos para incorporar, siempre y cuando el número total de tokens no exceda la longitud del contexto. Solo se muestra los primeros tres empotramientos en el ejemplo.

texts.txt:

search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?

Calcular múltiples empotramientos:

./embedding -ngl 99 -m nomic-embed-text-v1.f16.gguf -c 8192 -b 8192 --rope-scaling yarn --rope-freq-scale .75 -f texts.txt

Funcionalidades

Explotación de 2048 tokens de contexto por defecto
Compatibilidad con llama.cpp
Opciones para extender el contexto a 8192 tokens
Compatibilidad con múltiples técnicas de escalado
Conversión y cuantización basada en llama.cpp PR 5500

Casos de uso

Empotrar textos para aplicaciones de búsqueda
Empotrar preguntas de usuarios en aplicaciones RAG
Compatibilidad con estructuras de datos más grandes mediante la extensión de contexto