Clasificador Musterdatenkatalog

and-effect
Similitud de oraciones

Este modelo, desarrollado por and-effect en colaboración con Bertelsmann Stiftung, es un clasificador de texto destinado a clasificar los títulos de conjuntos de datos de municipios alemanes. El modelo se basa en bert-base-german-cased y ha sido afinado para este proyecto específico de Musterdatenkatalog (MDK). El modelo tiene el propósito de ayudar a municipios en Alemania, analistas de datos y periodistas, a identificar qué ciudades ya han publicado conjuntos de datos y qué información podría faltar.

Como usar

Asegúrate de tener instalados los siguientes paquetes:

pip install sentence-transformers huggingface_hub

Para ejecutar el algoritmo, utiliza el siguiente código:

import sys
from huggingface_hub import snapshot_download

path = snapshot_download(
    cache_dir="tmp/",
    repo_id="and-effect/musterdatenkatalog_clf",
    revision="main",
)

sys.path.append(path)

from pipeline import PipelineWrapper

pipeline = PipelineWrapper(path=path)

queries = [
    {
        "id": "1",
        "title": "Spielplätze"
    },
    {
        "id": "2",
        "title": "Berliner Weihnachtsmärkte 2022"
    },
    {
        "id": "3",
        "title": "Hochschulwechslerquoten zum Masterstudium nach Bundesländern",
    }
]

output = pipeline(queries)

Los datos de entrada deben ser una lista de diccionarios. Cada diccionario debe contener las claves 'id' y 'title'. La clave 'title' es el input para el pipeline. La salida es nuevamente una lista de diccionarios que contiene el id, el título y la clave 'prediction' con la predicción del algoritmo.

Funcionalidades

Clasificación de títulos de conjuntos de datos de municipios alemanes
Utiliza la taxonomía 'Musterdatenkatalog'
Basado y afinado a partir del modelo bert-base-german-cased
Optimizado para tareas de clasificación utilizando búsqueda semántica
Evalúa similitudes coseno entre el título del conjunto de datos y las etiquetas taxonómicas

Casos de uso

Clasificación de títulos de conjuntos de datos abiertos de municipios alemanes
Ayudar a los municipios a identificar datos publicados y faltantes
Apoyar a analistas y periodistas en la identificación de conjuntos de datos municipales