morenolq/spotify-podcast-advertising-classification

morenolq

Clasificación de texto

Este es un modelo de clasificación binaria basado en BERT-base-cased, afinado para clasificar una sentencia dada como contenido publicitario o no. Aprovecha el contexto de la sentencia anterior para hacer predicciones más precisas. El modelo se utiliza en el artículo 'Aprovechamiento del contenido multimodal para la resumición de podcast' publicado en ACM SAC 2022.

Como usar

from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained('morenolq/spotify-podcast-advertising-classification')
tokenizer = AutoTokenizer.from_pretrained('morenolq/spotify-podcast-advertising-classification')

desc_sentences = ["Sentence 1", "Sentence 2", "Sentence 3"]
for i, s in enumerate(desc_sentences):
  if i==0:
    context = "__START__"
  else:
    context = desc_sentences[i-1]
  out = tokenizer(context, s, padding = "max_length",
                  max_length = 256,
                  truncation=True,
                  return_attention_mask=True,
                  return_tensors = 'pt')
  outputs = model(**out)
  print (f"{s},{outputs}")

Funcionalidades

Clasificación binaria
Modelo BERT-base-cased
Afinado para detectar contenido publicitario
Aprovecha el contexto de la sentencia anterior

Casos de uso

Clasificación de contenido publicitario en podcasts
Detección de anuncios en contenido de texto
Desarrollo de sistemas de monitoreo de publicidad