AI Governance technisch implementieren

Governance auf dem Papier schützt niemanden. Dieser Kurs zeigt wie man AI Governance in Code umsetzt — mit echten Bibliotheken, echten Metriken, echten Architekturen. Für alle die KI-Systeme bauen, betreiben oder prüfen.

✦ Lernziel

Sie können Bias in ML-Systemen mit Python-Bibliotheken messen und visualisieren, verstehen Explainability-Methoden (SHAP, LIME), wissen wie Governance-Logging aussieht und können technische Dokumentation nach EU AI Act Art. 11 erstellen.

⏱ ~90 Min Assessment starten →

▶ Erklärvideo

Bevor es technisch wird: das visuelle Fundament. Wer versteht wie ein Modell intern arbeitet, versteht warum Bias und Explainability nicht trivial sind.

But what is a neural network? (3Blue1Brown, 19 Min)URL prüfen

📺 ⏱ ? Min 🌐 EN

Bevor es technisch wird: das visuelle Fundament. Wer versteht wie ein Modell intern arbeitet, versteht warum Bias und Explainability nicht trivial sind.

▶ Video ansehen

📖 Lerntext

⏱ ~25 Min lesen · 📌 Fairness-Metriken, Fairlearn, AIF360, Demographic Parity

Bias messen — Metriken und Python-Tools

Warum messen statt vermuten?

"Wir haben keinen Bias eingebaut" ist keine Aussage über das Modell. Es ist eine Aussage über die Absicht. Bias entsteht in den Daten — nicht im Code.

Um Bias nachzuweisen oder auszuschließen, brauchen Sie Metriken.

Die drei wichtigsten Fairness-Metriken

Demographic Parity (Statistische Parität)

CODE
P(Ŷ=1 | A=0) = P(Ŷ=1 | A=1)

Was es misst: Gleiche Rate positiver Vorhersagen über Gruppen. Beispiel: Ein Kreditmodell genehmigt 60% der Anträge von Gruppe A und nur 40% von Gruppe B — bei gleicher Qualifikation. Das verletzt Demographic Parity. Limitation: Ignoriert, ob die unterschiedlichen Raten durch legitime Unterschiede erklärt werden können.

Equalized Odds

CODE
P(Ŷ=1 | Y=y, A=0) = P(Ŷ=1 | Y=y, A=1)  für y ∈ {0,1}

Was es misst: Gleiche True Positive Rate (TPR) und False Positive Rate (FPR) über Gruppen. Beispiel: Bei einem Risiko-Klassifikator:

Gruppe A: TPR=0.8, FPR=0.2
Gruppe B: TPR=0.5, FPR=0.4

Gruppe B wird seltener korrekt als Risiko erkannt — und häufiger fälschlicherweise markiert. Das verletzt Equalized Odds.

Calibration

CODE
P(Y=1 | Ŷ=p, A=a) = p  für alle a

Was es misst: Vorhersagewerte bedeuten dasselbe für alle Gruppen. Beispiel: Ein Score von 0.7 sollte für alle Gruppen bedeuten: 70% Wahrscheinlichkeit des positiven Ereignisses. Wenn er für Gruppe B nur 50% bedeutet, ist das Modell für diese Gruppe schlecht kalibriert.

Wichtig: Kein Metriken-Set löst alles

Impossibility Theorem (Chouldechova 2017): Demographic Parity, Equalized Odds und Calibration können nicht gleichzeitig erfüllt sein — außer wenn die Basisraten der Gruppen gleich sind. Konsequenz: Sie müssen entscheiden, welche Fairness-Definition für Ihren Anwendungsfall gilt. Und Sie müssen diese Entscheidung dokumentieren.

Python: Fairlearn

PYTHON
class="kw">from fairlearn.metrics class="kw">import (
    MetricFrame,
    selection_rate,
    false_positive_rate,
    true_positive_rate,
    demographic_parity_difference
)
class="kw">import pandas as pd

class=class="st">"cm"># Metriken pro Gruppe berechnen
mf = MetricFrame(
    metrics={
        class="st">'selection_rate':      selection_rate,
        class="st">'true_positive_rate':  true_positive_rate,
        class="st">'false_positive_rate': false_positive_rate,
    },
    y_true=y_test,
    y_pred=y_pred,
    sensitive_features=X_test[class="st">'group']
)

class=class="st">"cm"># Ergebnisse anzeigen
print(class="st">"Metriken nach Gruppe:")
print(mf.by_group)
print()
print(class="st">"Gesamte Disparität (max - min):")
print(mf.difference(method=class="st">'between_groups'))

class=class="st">"cm"># Demographic Parity Difference direkt
dpd = demographic_parity_difference(
    y_true=y_test,
    y_pred=y_pred,
    sensitive_features=X_test[class="st">'group']
)
print(fclass="st">"\nDemographic Parity Difference: {dpd:.4f}")
print(fclass="st">"→ Threshold für EU AI Act: < 0.05 empfohlen")

Python: AIF360 (IBM)

PYTHON
class="kw">from aif360.datasets class="kw">import BinaryLabelDataset
class="kw">from aif360.metrics class="kw">import BinaryLabelDatasetMetric, ClassificationMetric
class="kw">from aif360.algorithms.preprocessing class="kw">import Reweighing

class=class="st">"cm"># Dataset erstellen
dataset = BinaryLabelDataset(
    df=df,
    label_names=[class="st">'credit_risk'],
    protected_attribute_names=[class="st">'geschlecht'],
    favorable_label=1,
    unfavorable_label=0
)

class=class="st">"cm"># Bias messen
metric = BinaryLabelDatasetMetric(
    dataset,
    unprivileged_groups=[{class="st">'geschlecht': 0}],  class=class="st">"cm"># z.B. Frauen
    privileged_groups=[{class="st">'geschlecht': 1}]     class=class="st">"cm"># z.B. Männer
)

print(fclass="st">"Disparate Impact:            {metric.disparate_impact():.4f}")
print(fclass="st">"Statistical Parity Diff:     {metric.statistical_parity_difference():.4f}")

class=class="st">"cm"># Bias mitigation: Reweighing
rw = Reweighing(
    unprivileged_groups=[{class="st">'geschlecht': 0}],
    privileged_groups=[{class="st">'geschlecht': 1}]
)
dataset_transformed = rw.fit_transform(dataset)

Wann reicht welche Bibliothek?

Situation	Empfehlung
sklearn-Modelle, schneller Start	Fairlearn
Komplexe Bias-Mitigation benötigt	AIF360
LLMs und Text-Modelle	Perspective API, Evaluate (HuggingFace)
Enterprise / Azure	Azure Responsible AI Toolbox

→ Explainability — SHAP und LIME →

✓ Zwischen-Check

Kurzer Check — kein Druck, nur zum Festigen.

1. Was misst Demographic Parity?

a) Ob das Modell für alle Gruppen gleich schnell ist b) Ob positive Vorhersagen gleichmäßig über Gruppen verteilt sind c) Ob das Modell gleich viele Daten pro Gruppe hat

2. Was ist der Unterschied zwischen Fairlearn und AIF360?

a) Fairlearn ist für Klassifikation, AIF360 für Regression b) Fairlearn ist Microsoft, AIF360 ist IBM — beide messen und reduzieren Bias c) Fairlearn braucht mehr Daten

💡 Key Takeaways

📊 Demographic Parity — gleiche Positive Rate über Gruppen

📊 Equalized Odds — gleiche TPR und FPR über Gruppen

📊 Calibration — gleiche Vorhersage-Güte über Gruppen

🐍 Fairlearn (Microsoft) und AIF360 (IBM) — Standard-Bibliotheken

⚠️ Kein Metriken-Set deckt alle Fairness-Definitionen ab — Auswahl begründen

▶ Erklärvideo

Vertiefung: Wie funktioniert ein LLM wirklich? Warum sind Bias und Explainability bei LLMs besonders schwierig? Die ersten 20 Minuten reichen als Kontext.

What is ChatGPT doing? (Wolfram, 60 Min — Auszug)URL prüfen

📺 ⏱ ? Min 🌐 EN

Vertiefung: Wie funktioniert ein LLM wirklich? Warum sind Bias und Explainability bei LLMs besonders schwierig? Die ersten 20 Minuten reichen als Kontext.

▶ Video ansehen

1 / 7

Problem	Klassisches ML	LLM
Erklärbarkeit	SHAP, LIME möglich	Aufmerksamkeitsgewichte — begrenzt
Reproduzierbarkeit	Identisch	Nur mit seed=0, temperature=0
Bias-Messung	Statistische Metriken	Prompt-abhängig, schwer aggregierbar
Halluzination	Nicht vorhanden	Zentrale Herausforderung
Scope-Creep	Klare Feature-Grenzen	Prompt-Injection möglich

Anwendungsfall	Empfehlung	Begründung
Klassisches ML, schneller Start	Fairlearn	Einfachste API, gut dokumentiert
Vollständiges Dashboard, Enterprise	Microsoft RAI Toolbox	Integriert, skaliert
LLM / Foundation Models	IBM watsonx.governance	Speziell für LLM-Compliance
Model Documentation	Google Model Cards Toolkit	Standard, gut toolchain-integrierbar
NLP/LLM Evaluation	Hugging Face Evaluate	Größtes Metrik-Ecosystem
Production Monitoring	Evidently AI	Drift, Bias, Datenverschlechterung
Experiment Tracking + Audit	MLflow	Open-Source, enterprise-ready

🎓

Level 4 vollständig abgeschlossen — 7 Module, von Bias-Metriken bis Agentic Governance. Assessment (20 Fragen, technisch, 80% zum Bestehen).

Assessment starten →

AI Governance technisch implementieren

Bias messen — Metriken und Python-Tools

Warum messen statt vermuten?

Die drei wichtigsten Fairness-Metriken

Demographic Parity (Statistische Parität)

Equalized Odds

Calibration

Wichtig: Kein Metriken-Set löst alles

Python: Fairlearn

Python: AIF360 (IBM)

Wann reicht welche Bibliothek?

Explainability — SHAP, LIME und Model Cards

Warum Explainability?

SHAP — SHapley Additive exPlanations

Globale Erklärung (welche Features sind insgesamt wichtig?)

Lokale Erklärung (warum diese konkrete Vorhersage?)

Für neuronale Netze und LLMs

LIME — Local Interpretable Model-agnostic Explanations

Partial Dependence Plots (PDP)

Model Cards — Standardisierte Systemdokumentation

Minimale Model Card Struktur

Governance-Logging und Monitoring-Architektur

Was muss geloggt werden?

Drift-Detection mit Evidently

MLflow für Experiment-Tracking und Audit-Trail

Monitoring-Architektur für Produktion

Prometheus + Grafana für Real-Time Monitoring

Technische Dokumentation nach EU AI Act Art. 11

Was Art. 11 verlangt

Die 8 Pflicht-Abschnitte (Annex IV)

1. Allgemeine Beschreibung

2. Beschreibung der Elemente und des Entwicklungsprozesses

3. Überwachung, Funktionsweise und Kontrolle

4–8. (Weitere Pflichtabschnitte)

Automatisierung mit Python

Zusammenfassung: Technical Governance Checklist

LLM-spezifische Governance

Warum LLMs anders sind

OWASP LLM Top 10

LLM01 — Prompt Injection

LLM06 — Sensitive Information Disclosure

Halluzinationserkennung

LLM Evaluation mit RAGAS

System Prompt als Governance-Instrument

Responsible AI Toolbox — Open-Source & Enterprise

Das Ökosystem

Microsoft Responsible AI Toolbox

IBM watsonx.governance

Google Model Cards Toolkit

Hugging Face Evaluate

Tool-Auswahl nach Anwendungsfall

Integrations-Architektur (Production)

Agentic AI Governance

Was ist das Problem?

Das Lethal Trifecta (OWASP AST10)

Human-in-the-Loop für Agenten

Intent-Execution Contract

Scope Minimization

Agentic AI Governance Checklist