nomic-embed-text-v1.5-GGUF
Este repositorio contiene archivos compatibles con llama.cpp para nomic-embed-text-v1.5 en formato GGUF. Llama.cpp utilizará por defecto 2048 tokens de contexto con estos archivos. Para usar los 8192 tokens completos con los que se ha evaluado Nomic Embed, tendrá que elegir un método de extensión de contexto. El modelo original utiliza Dynamic NTK-Aware RoPE scaling, pero actualmente no está disponible en llama.cpp. Una combinación de YaRN y escalado lineal es un sustituto aceptable. Estos archivos fueron convertidos y cuantizados con llama.cpp PR 5500, commit 34aa045de.
Como usar
Embedding text with nomic-embed-text requires task instruction prefixes at the beginning of each string.
For example, the code below shows how to use the search_query prefix to embed user questions, e.g. in a RAG application.
To see the full set of task instructions available & how they are designed to be used, visit the model card for nomic-embed-text-v1.5.
./embedding -ngl 99 -m nomic-embed-text-v1.5.f16.gguf -c 8192 -b 8192 --rope-scaling yarn --rope-freq-scale .75 -p 'search_query: What is TSNE?'
You can also submit a batch of texts to embed, as long as the total number of tokens does not exceed the context length. Only the first three embeddings are shown by the embedding example.
exts.txt:
search_query: What is TSNE?
search_query: Who is Laurens Van der Maaten?
Compute multiple embeddings:
./embedding -ngl 99 -m nomic-embed-text-v1.5.f16.gguf -c 8192 -b 8192 --rope-scaling yarn --rope-freq-scale .75 -f texts.txt
Funcionalidades
- Compatibilidad con llama.cpp
- Soporte para 2048 tokens de contexto por defecto
- Capacidad de usar hasta 8192 tokens de contexto con método de extensión de contexto adecuado
- Cuantización y conversión realizada con llama.cpp PR 5500
Casos de uso
- Embeddings de texto
- Aplicaciones de recuperación de información
- Análisis de similitud de oraciones