Bingsu/bigbird_ko_base-tsdae-specialty_corpus

Bingsu

Similitud de oraciones

Modelo bigbird entrenado con sentence-transformers: convierte oraciones de entrada en vectores de 256. Está entrenado en el corpus de especialidad de Aihub con TSDAE.

Como usar

Uso (sentence-transformers)
Antes de usar, instale sentence-transformers.
pip install -U sentence-transformers

O
conda install -c conda-forge sentence-transformers

Ejemplo de uso:
from sentence_transformers import util

sent = [
"본 논문은 디지털 신호처리용 VLSI의 자동설계를 위한 SODAS-DSP(SOgang Design Automation System-DSP) 시스템의 설계와 개발 결과에 대하여 기술한다",
"본 논문에서는 DD-Gardner방식의 타이밍 검출기 성능을 고찰한다.",
"이러한 해석방법은 매우 복잡한 것이어서 수치 해석 프로그램이 필수적 이다.",
"수치 해석 프로그램은 여러 가지 환경 변수를 입력해야 하므로 일반인이 사용하기에는 많은 어려움이 있다.",
"또 산란과 투과에 대한 고주파 근사식도 얻어진다.",
"그리고 슬릿간의 간격의 변화에 의해서 빔폭(beamwidth)을 조절할 수 있음을 보여준다.",
"오늘 점심은 짜장면이다.",
"오늘 저녁은 김밥천국이다."
]

paraphrases = util.paraphrase_mining(model, sent)

for paraphrase in paraphrases[:5]:
    score, i, j = paraphrase
    print("{} \t\t {} \t\t Score: {:.4f}".format(sent[i], sent[j], score))

Uso (HuggingFace Transformers)
Sin sentence-transformers, puede usar el modelo así: Primero, pase su entrada a través del modelo transformer, luego aplique la operación de pooling adecuada sobre las embeddings de palabras contextualizadas.
from transformers import AutoTokenizer, AutoModel
import torch

def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]

# Oraciones para las que queremos embeddings de oraciones
sentences = ['This is an example sentence', 'Each sentence is converted']

# Cargar el modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('Bingsu/bigbird_ko_base-tsdae-specialty_corpus')
model = AutoModel.from_pretrained('Bingsu/bigbird_ko_base-tsdae-specialty_corpus')

# Tokenizar oraciones
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Calcular embeddings de tokens
with torch.no_grad():
    model_output = model(**encoded_input)

# Realizar pooling. En este caso, pooling cls.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])

print("Embeddings de oraciones:")
print(sentence_embeddings)

Funcionalidades

Transformación de oraciones en vectores
Compatibilidad con AutoTrain
Compatibilidad con Inference Endpoints
Optimización para PyTorch
Extracción de características
Similaridad de oraciones
Licencia MIT

Casos de uso

Extracción de características de oraciones
Medición de la similitud entre oraciones
Conversión de oraciones a vectores para aplicaciones de procesamiento de lenguaje natural