Clasificador Musterdatenkatalog
Este modelo, desarrollado por and-effect en colaboración con Bertelsmann Stiftung, es un clasificador de texto destinado a clasificar los títulos de conjuntos de datos de municipios alemanes. El modelo se basa en bert-base-german-cased y ha sido afinado para este proyecto específico de Musterdatenkatalog (MDK). El modelo tiene el propósito de ayudar a municipios en Alemania, analistas de datos y periodistas, a identificar qué ciudades ya han publicado conjuntos de datos y qué información podría faltar.
Como usar
Asegúrate de tener instalados los siguientes paquetes:
pip install sentence-transformers huggingface_hub
Para ejecutar el algoritmo, utiliza el siguiente código:
import sys
from huggingface_hub import snapshot_download
path = snapshot_download(
cache_dir="tmp/",
repo_id="and-effect/musterdatenkatalog_clf",
revision="main",
)
sys.path.append(path)
from pipeline import PipelineWrapper
pipeline = PipelineWrapper(path=path)
queries = [
{
"id": "1",
"title": "Spielplätze"
},
{
"id": "2",
"title": "Berliner Weihnachtsmärkte 2022"
},
{
"id": "3",
"title": "Hochschulwechslerquoten zum Masterstudium nach Bundesländern",
}
]
output = pipeline(queries)
Los datos de entrada deben ser una lista de diccionarios. Cada diccionario debe contener las claves 'id' y 'title'. La clave 'title' es el input para el pipeline. La salida es nuevamente una lista de diccionarios que contiene el id, el título y la clave 'prediction' con la predicción del algoritmo.
Funcionalidades
- Clasificación de títulos de conjuntos de datos de municipios alemanes
- Utiliza la taxonomía 'Musterdatenkatalog'
- Basado y afinado a partir del modelo bert-base-german-cased
- Optimizado para tareas de clasificación utilizando búsqueda semántica
- Evalúa similitudes coseno entre el título del conjunto de datos y las etiquetas taxonómicas
Casos de uso
- Clasificación de títulos de conjuntos de datos abiertos de municipios alemanes
- Ayudar a los municipios a identificar datos publicados y faltantes
- Apoyar a analistas y periodistas en la identificación de conjuntos de datos municipales