bclavie/fio-base-japanese-v0.1

bclavie

Similitud de oraciones

fio-base-japanese-v0.1 es una prueba de concepto y el primer lanzamiento de la familia Fio de incrustaciones japonesas. Está basado en cl-tohoku/bert-base-japanese-v3 y entrenado con volúmenes limitados de datos en una sola GPU. Para más información, consulte mis notas sobre Fio.

Como usar

Este modelo requiere tanto fugashi como unidic-lite:
pip install -U fugashi unidic-lite

Si se utiliza para una tarea de recuperación, debe anteponer su consulta con "関連記事を取得するために使用できるこの文の表現を生成します: ".
Uso (Sentence-Transformers)
Este modelo se usa mejor a través de sentence-transformers. Si no lo tiene, es fácil de instalar:
pip install -U sentence-transformers

Entonces puede usar el modelo así:
from sentence_transformers import SentenceTransformer
sentences = ["こんにちは、世界!", "文埋め込み最高!文埋め込み最高と叫びなさい", "極度乾燥しなさい"]

model = SentenceTransformer('bclavie/fio-base-japanese-v0.1')
embeddings = model.encode(sentences)
print(embeddings)

Uso (HuggingFace Transformers)
Sin sentence-transformers, puede usar el modelo de la siguiente manera: Primero, pase su entrada a través del modelo transformer, luego tiene que aplicar la operación de agrupamiento correcta en la parte superior de las incrustaciones de palabras contextualizadas.
from transformers import AutoTokenizer, AutoModel
import torch

def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]

# Frases para las cuales queremos incrustaciones de oraciones
sentences = ['This is an example sentence', 'Each sentence is converted']

# Cargar el modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')

# Tokenizar frases
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Calcular incrustaciones de tokens
with torch.no_grad():
    model_output = model(**encoded_input)

# Realizar agrupamiento. En este caso, agrupamiento cls.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

Funcionalidades

Similaridad de oración y deducción
Modelo basado en BERT entrenado en japonés
Extracción de características
Modelo compatible con Safetensors
Incrustaciones de texto
Compatible con transformers de HuggingFace

Casos de uso

Similaridad de oraciones
Deducción textual
Extracción de características
Incrustaciones de texto
Tareas de recuperación de información