seongju/klue-tc-bert-base-multilingual-cased
seongju
Clasificación de texto
Este modelo es un BERT multilingüe ajustado específicamente para la clasificación de textos en coreano utilizando datos de ajuste fino del conjunto de datos klue-tc (también conocido como YNAT). Está diseñado para recibir titulares de noticias como entrada y determinar su tema de salida. La base del modelo es 'bert-base-multilingual-cased' y se pública bajo la licencia CC-BY-SA 4.0.
Como usar
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained(
"seongju/klue-tc-bert-base-multilingual-cased"
)
model = AutoModelForSequenceClassification.from_pretrained(
"seongju/klue-tc-bert-base-multilingual-cased"
)
mapping = {0: 'IT과학', 1: '경제', 2: '사회',
3: '생활문화', 4: '세계', 5: '스포츠', 6: '정치'}
inputs = tokenizer(
"백신 회피 가능성? 남미에서 새로운 변이 바이러스 급속 확산 ",
padding=True, truncation=True, max_length=128, return_tensors="pt"
)
outputs = model(**inputs)
probs = outputs[0].softmax(1)
output = mapping[probs.argmax().item()]
Funcionalidades
- Clasificación de textos
- Transformers
- Compatibilidad con PyTorch
- Compatibilidad con Safetensors
- Entrenamiento de finetuning
- Inferencia de puntos finales
Casos de uso
- Clasificación de titulares de noticias
- Identificación de temas en textos coreanos
- Automatización del etiquetado de tema para contenido noticioso