seongju/klue-tc-bert-base-multilingual-cased

seongju

Clasificación de texto

Este modelo es un BERT multilingüe ajustado específicamente para la clasificación de textos en coreano utilizando datos de ajuste fino del conjunto de datos klue-tc (también conocido como YNAT). Está diseñado para recibir titulares de noticias como entrada y determinar su tema de salida. La base del modelo es 'bert-base-multilingual-cased' y se pública bajo la licencia CC-BY-SA 4.0.

Como usar

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained(
"seongju/klue-tc-bert-base-multilingual-cased"
)

model = AutoModelForSequenceClassification.from_pretrained(
"seongju/klue-tc-bert-base-multilingual-cased"
)
mapping = {0: 'IT과학', 1: '경제', 2: '사회', 
3: '생활문화', 4: '세계', 5: '스포츠', 6: '정치'}
inputs = tokenizer(
"백신 회피 가능성? 남미에서 새로운 변이 바이러스 급속 확산 ",
padding=True, truncation=True, max_length=128, return_tensors="pt"
)
outputs = model(**inputs)
probs = outputs[0].softmax(1)
output = mapping[probs.argmax().item()]

Funcionalidades

Clasificación de textos
Transformers
Compatibilidad con PyTorch
Compatibilidad con Safetensors
Entrenamiento de finetuning
Inferencia de puntos finales

Casos de uso

Clasificación de titulares de noticias
Identificación de temas en textos coreanos
Automatización del etiquetado de tema para contenido noticioso