morenolq/spotify-podcast-advertising-classification
morenolq
Clasificación de texto
Este es un modelo de clasificación binaria basado en BERT-base-cased, afinado para clasificar una sentencia dada como contenido publicitario o no. Aprovecha el contexto de la sentencia anterior para hacer predicciones más precisas. El modelo se utiliza en el artículo 'Aprovechamiento del contenido multimodal para la resumición de podcast' publicado en ACM SAC 2022.
Como usar
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained('morenolq/spotify-podcast-advertising-classification')
tokenizer = AutoTokenizer.from_pretrained('morenolq/spotify-podcast-advertising-classification')
desc_sentences = ["Sentence 1", "Sentence 2", "Sentence 3"]
for i, s in enumerate(desc_sentences):
if i==0:
context = "__START__"
else:
context = desc_sentences[i-1]
out = tokenizer(context, s, padding = "max_length",
max_length = 256,
truncation=True,
return_attention_mask=True,
return_tensors = 'pt')
outputs = model(**out)
print (f"{s},{outputs}")
Funcionalidades
- Clasificación binaria
- Modelo BERT-base-cased
- Afinado para detectar contenido publicitario
- Aprovecha el contexto de la sentencia anterior
Casos de uso
- Clasificación de contenido publicitario en podcasts
- Detección de anuncios en contenido de texto
- Desarrollo de sistemas de monitoreo de publicidad