1. Was misst Demographic Parity Difference (DPD)?

A Den Unterschied in der Modell-Accuracy zwischen Gruppen B Den Unterschied in der Rate positiver Vorhersagen zwischen geschützten Gruppen C Den Unterschied in der Trainingszeit

2. Welche Python-Bibliothek liefert MetricFrame für Fairness-Metriken nach Gruppe? 2 Pkt

A scikit-learn B Fairlearn (Microsoft) C TensorFlow

3. Warum können Demographic Parity und Equalized Odds nicht gleichzeitig erfüllt sein?

A Weil sie verschiedene Bibliotheken benötigen B Impossibility Theorem: außer wenn Basisraten gleich sind, schließen sie sich aus C Weil Equalized Odds mehr Daten benötigt

4. Was berechnet SHAP für eine einzelne Vorhersage?

A Die Gesamtgenauigkeit des Modells B Den Beitrag jedes Features zur konkreten Vorhersage (Shapley Values) C Die Feature-Importance über den gesamten Datensatz

5. Wann ist LIME besser als SHAP?

A Bei Baummodellen — LIME ist schneller für Random Forests B Wenn ein modell-agnostisches, lokales Erklärungsverfahren gebraucht wird C Bei großen Datensätzen — LIME skaliert besser

6. Eine Model Card enthält für ein Hochrisiko-Kreditmodell: Fairness-Metriken zeigen DPD=0.07. Was bedeutet das? 2 Pkt

A Das Modell ist compliant — 0.07 ist unter 0.1 B Review erforderlich — 0.07 überschreitet den empfohlenen Threshold von 0.05 C Das Modell muss sofort abgeschaltet werden

7. Was loggt man gemäß EU AI Act Art. 12 — und was loggt man NICHT?

A Alle Rohdaten inkl. PII für vollständige Nachvollziehbarkeit B Input-Hash (kein PII), Prediction, Decision, Model-Version, Timestamp C Nur die finale Entscheidung ohne Details

8. Welches Tool wird für Data Drift Detection im Produktionsbetrieb eingesetzt?

A Pandas B Evidently C LIME

9. Was tracked MLflow im Kontext von AI Governance?

A Nur die Modell-Accuracy B Experiment-Parameter, Metriken (inkl. Fairness), Artefakte — vollständiger Audit-Trail C Nur Deployment-Konfigurationen

10. Was schreibt EU AI Act Annex IV (Technische Dokumentation) für Hochrisiko-Systeme vor? 2 Pkt

A Nur eine kurze Beschreibung des Modelltyps B 8 Pflichtabschnitte: Zweck, Entwicklungsprozess, Monitoring, Genauigkeit, Fairness, Konformitätserklärung u.a. C Eine Zertifizierung durch einen akkreditierten Prüfer

11. Wie oft muss die Technische Dokumentation nach Art. 11 aktualisiert werden?

A Jährlich B Bei jeder wesentlichen Systemänderung C Nur bei der ersten Version

12. Ein Kreditmodell zeigt für Antragsteller < 25 Jahre eine TPR von 0.68 vs. 0.91 gesamt. Was ist die korrekte Reaktion?

A Akzeptabel — junge Antragsteller haben oft weniger Kredithistorie B Modell aus dem Scoring nehmen, Root-Cause-Analyse, Bias-Mitigation vor Re-Deployment C Threshold für diese Gruppe anpassen

13. Was ist der Unterschied zwischen SHAP für klassische ML-Modelle und LLMs?

A SHAP funktioniert bei LLMs genauso wie bei Baummodellen B Bei LLMs liefern Attention Weights begrenzte Erklärungen — SHAP ist aufwändig und weniger zuverlässig C LLMs brauchen keine Explainability da sie Text ausgeben

14. Welche RAGAS-Metrik misst ob eine RAG-Antwort durch die abgerufenen Dokumente gedeckt ist?

A answer_relevancy B context_precision C faithfulness

15. Was bietet die Microsoft Responsible AI Toolbox über Fairlearn hinaus?

A Nur eine bessere UI für Fairlearn-Metriken B Error Analysis, Causal Inference, What-If Szenarien und Counterfactuals in einem Dashboard C Production Monitoring und Alerting

16. Welches Tool ist die beste Wahl für Production Drift Detection?

A SHAP B Evidently AI C IBM watsonx.governance

17. Ein Agent hat: CRM-Zugriff (PII), Web-Suche (untrusted), E-Mail-Versand. Was ist das Risiko? 2 Pkt

A Minimales Risiko — das sind normale Geschäftsfunktionen B Lethal Trifecta: alle drei Komponenten gleichzeitig erlauben Daten-Exfiltration via Prompt Injection C Mittleres Risiko — nur wenn der Agent schlecht trainiert ist

18. Was bedeutet Principle of Least Privilege für AI Agenten?

A Der Agent bekommt die geringsten Rechenressourcen B Der Agent erhält nur die Capabilities die für die konkrete Aufgabe minimal notwendig sind C Der Agent darf nur einfache Aufgaben ausführen

19. Ein Agent wartet 5 Minuten auf HITL-Approval. Kein Mensch antwortet. Was passiert?

A Der Agent führt die Aktion mit niedrigster Priorität aus B Der Agent wartet weiter — Human Oversight hat Vorrang C Timeout = Ablehnung (fail-closed). Aktion wird nicht ausgeführt.

20. Sie bauen ein Kreditscoring-System. Welcher Stack ist für EU AI Act Hochrisiko vollständig korrekt? 2 Pkt

A XGBoost + gute Accuracy + DSGVO-konformes Logging B XGBoost + Fairlearn (Bias < 0.05) + SHAP + MLflow (Audit) + Evidently (Drift) + Technische Dokumentation (Annex IV) + HITL-Override C XGBoost + IBM watsonx.governance Lizenz