Clasificación de categorías de noticias turcas de Kodiks

Kodiks
Clasificación de texto

Este modelo clasifica textos de noticias turcas en varias categorías utilizando la tecnología de Transformers y PyTorch. Es un modelo basado en BERT específico para el idioma turco. El modelo fue testeado con un conjunto de datos llamado 'INTERPRESS TURKISH NEWS CATEGORY CLASSIFICATION MODEL - TEST - v0.2', obteniendo una precisión de 0.9190, una puntuación F1 de 0.7590, una precisión de 0.7966 y un recall de 0.7385.

Como usar

Cómo usar el modelo:

Puedes implementar el modelo para clasificar textos de noticias en diferentes categorías usando las siguientes etiquetas:

LABELS = {
  0: 'spor',
  1: 'is_ve_finans',
  2: 'lifestyle',
  3: 'eglence',
  4: 'seyahat',
  5: 'egitim',
  6: 'bilim',
  7: 'teknoloji',
  8: 'kultur_sanat',
  9: 'otomotiv',
  10: 'politika',
  11: 'endustri',
  12: 'moda',
  13: 'yemek',
  14: 'saglik'
}

Conjuntos de datos de entrenamiento y prueba:

DatasetDict({
  train: Dataset({
    features: ['labels', 'content'],
    num_rows: 112705
  })
  test: Dataset({
    features: ['labels', 'content'],
    num_rows: 28177
  })
})

Funcionalidades

Clasificación de textos
Modelo basado en BERT
Soporte para textos en turco
Implementación en PyTorch
Categorías de noticias: deportes, negocios y finanzas, estilo de vida, entretenimiento, viaje, educación, ciencia, tecnología, cultura y arte, automóviles, política, industria, moda, comida y salud.

Casos de uso

Clasificación de artículos de noticias en diferentes categorías
Análisis automatizado de contenido noticioso
Filtrado y organización de contenido basado en la categoría
Generación de recomendaciones personalizadas basadas en preferencias de categoría