Bingsu/bigbird_ko_base-tsdae-specialty_corpus
Bingsu
Similitud de oraciones
Modelo bigbird entrenado con sentence-transformers: convierte oraciones de entrada en vectores de 256. Está entrenado en el corpus de especialidad de Aihub con TSDAE.
Como usar
Uso (sentence-transformers)
Antes de usar, instale sentence-transformers.
pip install -U sentence-transformers
O
conda install -c conda-forge sentence-transformers
Ejemplo de uso:
from sentence_transformers import util
sent = [
"본 논문은 디지털 신호처리용 VLSI의 자동설계를 위한 SODAS-DSP(SOgang Design Automation System-DSP) 시스템의 설계와 개발 결과에 대하여 기술한다",
"본 논문에서는 DD-Gardner방식의 타이밍 검출기 성능을 고찰한다.",
"이러한 해석방법은 매우 복잡한 것이어서 수치 해석 프로그램이 필수적 이다.",
"수치 해석 프로그램은 여러 가지 환경 변수를 입력해야 하므로 일반인이 사용하기에는 많은 어려움이 있다.",
"또 산란과 투과에 대한 고주파 근사식도 얻어진다.",
"그리고 슬릿간의 간격의 변화에 의해서 빔폭(beamwidth)을 조절할 수 있음을 보여준다.",
"오늘 점심은 짜장면이다.",
"오늘 저녁은 김밥천국이다."
]
paraphrases = util.paraphrase_mining(model, sent)
for paraphrase in paraphrases[:5]:
score, i, j = paraphrase
print("{} \t\t {} \t\t Score: {:.4f}".format(sent[i], sent[j], score))
Uso (HuggingFace Transformers)
Sin sentence-transformers, puede usar el modelo así: Primero, pase su entrada a través del modelo transformer, luego aplique la operación de pooling adecuada sobre las embeddings de palabras contextualizadas.
from transformers import AutoTokenizer, AutoModel
import torch
def cls_pooling(model_output, attention_mask):
return model_output[0][:,0]
# Oraciones para las que queremos embeddings de oraciones
sentences = ['This is an example sentence', 'Each sentence is converted']
# Cargar el modelo desde HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('Bingsu/bigbird_ko_base-tsdae-specialty_corpus')
model = AutoModel.from_pretrained('Bingsu/bigbird_ko_base-tsdae-specialty_corpus')
# Tokenizar oraciones
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Calcular embeddings de tokens
with torch.no_grad():
model_output = model(**encoded_input)
# Realizar pooling. En este caso, pooling cls.
sentence_embeddings = cls_pooling(model_output, encoded_input['attention_mask'])
print("Embeddings de oraciones:")
print(sentence_embeddings)
Funcionalidades
- Transformación de oraciones en vectores
- Compatibilidad con AutoTrain
- Compatibilidad con Inference Endpoints
- Optimización para PyTorch
- Extracción de características
- Similaridad de oraciones
- Licencia MIT
Casos de uso
- Extracción de características de oraciones
- Medición de la similitud entre oraciones
- Conversión de oraciones a vectores para aplicaciones de procesamiento de lenguaje natural