AI Governance technisch implementieren
1. Was misst Demographic Parity Difference (DPD)?
DPD = |P(Ŷ=1|A=0) - P(Ŷ=1|A=1)| — Differenz der Positive Rates.
2. Welche Python-Bibliothek liefert MetricFrame für Fairness-Metriken nach Gruppe? 2 Pkt
fairlearn.metrics.MetricFrame — Standard für Fairness-Evaluation.
3. Warum können Demographic Parity und Equalized Odds nicht gleichzeitig erfüllt sein?
Chouldechova 2017: Fairness-Definitionen sind mathematisch inkompatibel bei ungleichen Basisraten.
4. Was berechnet SHAP für eine einzelne Vorhersage?
SHAP erklärt EINE Vorhersage — warum hat das Modell genau das entschieden?
5. Wann ist LIME besser als SHAP?
LIME = Local Interpretable Model-agnostic Explanations. Funktioniert mit jedem Modell.
6. Eine Model Card enthält für ein Hochrisiko-Kreditmodell: Fairness-Metriken zeigen DPD=0.07. Was bedeutet das? 2 Pkt
EU AI Act: DPD < 0.05 wird als Threshold empfohlen. 0.07 = Review, nicht sofortiger Stopp.
7. Was loggt man gemäß EU AI Act Art. 12 — und was loggt man NICHT?
Art. 12 + DSGVO: Audit-Trail ja, aber kein direktes PII-Logging. Hash statt Rohdaten.
8. Welches Tool wird für Data Drift Detection im Produktionsbetrieb eingesetzt?
Evidently AI — Standard-Tool für Drift-Detection und Model Monitoring in Production.
9. Was tracked MLflow im Kontext von AI Governance?
MLflow = Experiment-Tracking + Audit-Trail. Fairness-Metriken als mlflow.log_metrics() loggen.
10. Was schreibt EU AI Act Annex IV (Technische Dokumentation) für Hochrisiko-Systeme vor? 2 Pkt
Annex IV definiert 8 Pflichtabschnitte. Muss vor Markteinführung vorliegen.
11. Wie oft muss die Technische Dokumentation nach Art. 11 aktualisiert werden?
Art. 11: Dokumentation muss auf dem neuesten Stand gehalten werden — bei jeder Modell-Version.
12. Ein Kreditmodell zeigt für Antragsteller < 25 Jahre eine TPR von 0.68 vs. 0.91 gesamt. Was ist die korrekte Reaktion?
Systematische Unterperformance für eine Gruppe = Bias. Root Cause zuerst, dann Mitigation.
13. Was ist der Unterschied zwischen SHAP für klassische ML-Modelle und LLMs?
LLMs: stochastisch, sehr viele Parameter, Attention ≠ Importance. Explainability ist fundamentell schwieriger.
14. Welche RAGAS-Metrik misst ob eine RAG-Antwort durch die abgerufenen Dokumente gedeckt ist?
faithfulness = Grounding-Score. Sagt aus wie viel der Antwort im Kontext nachweisbar ist.
15. Was bietet die Microsoft Responsible AI Toolbox über Fairlearn hinaus?
RAI Toolbox = Fairlearn + Error Analysis + Explainability + Causal + Counterfactuals.
16. Welches Tool ist die beste Wahl für Production Drift Detection?
Evidently: spezialisiert auf Data Drift, Model Drift, Data Quality — in Production.
17. Ein Agent hat: CRM-Zugriff (PII), Web-Suche (untrusted), E-Mail-Versand. Was ist das Risiko? 2 Pkt
Lethal Trifecta: Angreifer injiziert via Web-Suche → Agent greift CRM ab → sendet per E-Mail.
18. Was bedeutet Principle of Least Privilege für AI Agenten?
PoLP: Minimaler Capability-Scope. Trust Level 'low' = kein Write, kein External API, kein E-Mail.
19. Ein Agent wartet 5 Minuten auf HITL-Approval. Kein Mensch antwortet. Was passiert?
Fail-closed: Timeout ist kein implizites Okay. Bei Unsicherheit blockieren.
20. Sie bauen ein Kreditscoring-System. Welcher Stack ist für EU AI Act Hochrisiko vollständig korrekt? 2 Pkt
Hochrisiko braucht: Fairness-Messung + Explainability + Audit-Trail + Drift-Monitoring + technische Doku + menschliche Aufsicht.
Ihre E-Mail-Adresse wird ausschließlich für den Zertifikatsversand genutzt. Kein Newsletter, keine Weitergabe. · Datenschutz