Clasificación de categorías de noticias turcas de Kodiks
Kodiks
Clasificación de texto
Este modelo clasifica textos de noticias turcas en varias categorías utilizando la tecnología de Transformers y PyTorch. Es un modelo basado en BERT específico para el idioma turco. El modelo fue testeado con un conjunto de datos llamado 'INTERPRESS TURKISH NEWS CATEGORY CLASSIFICATION MODEL - TEST - v0.2', obteniendo una precisión de 0.9190, una puntuación F1 de 0.7590, una precisión de 0.7966 y un recall de 0.7385.
Como usar
Cómo usar el modelo:
Puedes implementar el modelo para clasificar textos de noticias en diferentes categorías usando las siguientes etiquetas:
LABELS = {
0: 'spor',
1: 'is_ve_finans',
2: 'lifestyle',
3: 'eglence',
4: 'seyahat',
5: 'egitim',
6: 'bilim',
7: 'teknoloji',
8: 'kultur_sanat',
9: 'otomotiv',
10: 'politika',
11: 'endustri',
12: 'moda',
13: 'yemek',
14: 'saglik'
}
Conjuntos de datos de entrenamiento y prueba:
DatasetDict({
train: Dataset({
features: ['labels', 'content'],
num_rows: 112705
})
test: Dataset({
features: ['labels', 'content'],
num_rows: 28177
})
})
Funcionalidades
- Clasificación de textos
- Modelo basado en BERT
- Soporte para textos en turco
- Implementación en PyTorch
- Categorías de noticias: deportes, negocios y finanzas, estilo de vida, entretenimiento, viaje, educación, ciencia, tecnología, cultura y arte, automóviles, política, industria, moda, comida y salud.
Casos de uso
- Clasificación de artículos de noticias en diferentes categorías
- Análisis automatizado de contenido noticioso
- Filtrado y organización de contenido basado en la categoría
- Generación de recomendaciones personalizadas basadas en preferencias de categoría