Implementare tecnicamente la governance dell'AI
1. Che cosa misura la Differenza di Parità Demografica (DPD)?
DPD = |P(Ŷ=1|A=0) - P(Ŷ=1|A=1)| — Differenza dei tassi positivi.
2. Quale libreria Python fornisce MetricFrame per le metriche di equità per gruppo? 2 pts
fairlearn.metrics.MetricFrame — Standard per la valutazione dell'equità.
3. Perché la Parità Demografica e le Probabilità Equalizzate non possono essere soddisfatte contemporaneamente?
Chouldechova 2017: Le definizioni di equità sono matematicamente incompatibili in presenza di tassi di base disuguali.
4. Che cosa calcola SHAP per una singola previsione?
SHAP spiega UNA previsione — perché il modello ha deciso esattamente così?
5. Quando LIME è migliore di SHAP?
LIME = Local Interpretable Model-agnostic Explanations. Funziona con qualsiasi modello.
6. Una Model Card contiene per un modello di credito ad alto rischio: le metriche di equità mostrano DPD=0.07. Cosa significa questo? 2 pts
EU AI Act: DPD < 0.05 è raccomandato come soglia. 0.07 = Revisione, non arresto immediato.
7. Cosa si registra secondo l'EU AI Act Art. 12 — e cosa NON si registra?
Art. 12 + DSGVO: Audit-Trail sì, ma nessun logging diretto di PII. Hash invece di dati grezzi.
8. Quale strumento viene utilizzato per il rilevamento del Data Drift in produzione?
Evidently AI — Strumento standard per il rilevamento delle derive e il monitoraggio dei modelli in produzione.
9. Cosa traccia MLflow nel contesto della governance dell'AI?
MLflow = Tracciamento degli esperimenti + Audit-Trail. Registrare le metriche di equità come mlflow.log_metrics().
10. Cosa prescrive l'Annex IV (Documentazione Tecnica) del EU AI Act per i sistemi ad alto rischio? 2 pts
L'Annex IV definisce 8 sezioni obbligatorie. Deve essere disponibile prima dell'immissione sul mercato.
11. Con quale frequenza deve essere aggiornata la Documentazione Tecnica secondo l'Art. 11?
Art. 11: La documentazione deve essere mantenuta aggiornata — per ogni versione del modello.
12. Un modello di credito mostra per i richiedenti < 25 anni un TPR di 0.68 rispetto a 0.91 complessivo. Qual è la reazione corretta?
Sottoperformance sistematica per un gruppo = Bias. Prima la causa principale, poi la mitigazione.
13. Qual è la differenza tra SHAP per modelli di ML classici e LLM?
LLM: stocastico, moltissimi parametri, Attenzione ≠ Importanza. La spiegabilità è fondamentalmente più difficile.
14. Quale metrica RAGAS misura se una risposta RAG è coperta dai documenti recuperati?
fedeltà = Grounding-Score. Indica quanto della risposta è verificabile nel contesto.
15. Cosa offre la Microsoft Responsible AI Toolbox oltre a Fairlearn?
RAI Toolbox = Fairlearn + Analisi degli errori + Spiegabilità + Causale + Controfattuali.
16. Quale strumento è la scelta migliore per il rilevamento del drift di produzione?
Evidentemente: specializzato in Data Drift, Model Drift, Qualità dei Dati — in Produzione.
17. Un agente ha: accesso CRM (PII), ricerca web (non affidabile), invio e-mail. Qual è il rischio? 2 pts
Trifecta letale: L'attaccante inietta tramite ricerca web → L'agente accede al CRM → invia tramite e-mail.
18. Cosa significa il Principio del Minimo Privilegio per gli agenti AI?
PoLP: Ambito di capacità minimo. Livello di fiducia 'basso' = nessuna scrittura, nessuna API esterna, nessuna e-mail.
19. Un agente attende 5 minuti per l'approvazione HITL. Nessun umano risponde. Cosa succede?
Fail-closed: Timeout non è un implicito Okay. In caso di incertezza, bloccare.
20. Stai sviluppando un sistema di scoring del credito. Quale stack è completamente corretto per il "EU AI Act" ad alto rischio? 2 pts
Hochrisiko richiede: Misurazione della correttezza + Spiegabilità + Tracciabilità degli audit + Monitoraggio del drift + Documentazione tecnica + Supervisione umana.