bclavie/fio-base-japanese-v0.1
fio-base-japanese-v0.1 es una prueba de concepto y el primer lanzamiento de la familia Fio de incrustaciones japonesas. Está basado en cl-tohoku/bert-base-japanese-v3 y entrenado con volúmenes limitados de datos en una sola GPU. Para más información, consulte mis notas sobre Fio.
Como usar
Este modelo requiere tanto fugashi como unidic-lite:
pip install -U fugashi unidic-lite
Si se utiliza para una tarea de recuperación, debe anteponer su consulta con "関連記事を取得するために使用できるこの文の表現を生成します: ".
Uso (Sentence-Transformers)
Este modelo se usa mejor a través de sentence-transformers. Si no lo tiene, es fácil de instalar:
pip install -U sentence-transformers
Entonces puede usar el modelo así:
from sentence_transformers import SentenceTransformer
sentences = ["こんにちは、世界!", "文埋め込み最高!文埋め込み最高と叫びなさい", "極度乾燥しなさい"]
model = SentenceTransformer('bclavie/fio-base-japanese-v0.1')
embeddings = model.encode(sentences)
print(embeddings)
Uso (HuggingFace Transformers)
Sin sentence-transformers, puede usar el modelo de la siguiente manera: Primero, pase su entrada a través del modelo transformer, luego tiene que aplicar la operación de agrupamiento correcta en la parte superior de las incrustaciones de palabras contextualizadas.
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output, attention_mask):
return model_output[0][:,0]
# Frases para las cuales queremos incrustaciones de oraciones
sentences = ['This is an example sentence', 'Each sentence is converted']
# Cargar el modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')
# Tokenizar frases
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Calcular incrustaciones de tokens
with torch.no_grad():
model_output = model(**encoded_input)
# Realizar agrupamiento. En este caso, agrupamiento cls.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])
print("Sentence embeddings:")
print(sentence_embeddings)
Funcionalidades
- Similaridad de oración y deducción
- Modelo basado en BERT entrenado en japonés
- Extracción de características
- Modelo compatible con Safetensors
- Incrustaciones de texto
- Compatible con transformers de HuggingFace
Casos de uso
- Similaridad de oraciones
- Deducción textual
- Extracción de características
- Incrustaciones de texto
- Tareas de recuperación de información