Implementar técnicamente la gobernanza de la IA
1. ¿Qué mide la Diferencia de Paridad Demográfica (DPD)?
DPD = |P(Ŷ=1|A=0) - P(Ŷ=1|A=1)| — Diferencia de las tasas positivas.
2. ¿Qué biblioteca de Python proporciona MetricFrame para métricas de equidad por grupo? 2 pts
fairlearn.metrics.MetricFrame — Estándar para la evaluación de equidad.
3. ¿Por qué no pueden cumplirse simultáneamente la Paridad Demográfica y las Probabilidades Igualadas?
Chouldechova 2017: Las definiciones de equidad son matemáticamente incompatibles en tasas base desiguales.
4. ¿Qué calcula SHAP para una única predicción?
SHAP explica UNA predicción — ¿por qué el modelo decidió exactamente eso?
5. ¿Cuándo es LIME mejor que SHAP?
LIME = Explicaciones Locales Interpretables Independientes del Modelo. Funciona con cualquier modelo.
6. Una Model Card contiene para un modelo de crédito de alto riesgo: Las métricas de equidad muestran DPD=0.07. ¿Qué significa esto? 2 pts
EU AI Act: Se recomienda un umbral de DPD < 0.05. 0.07 = Revisión, no detención inmediata.
7. ¿Qué se registra según el EU AI Act Art. 12 — y qué NO se registra?
Art. 12 + DSGVO: Registro de auditoría sí, pero sin registro directo de PII. Hash en lugar de datos en bruto.
8. ¿Qué herramienta se utiliza para la detección de desviaciones de datos en el entorno de producción?
Evidently AI — Herramienta estándar para la detección de deriva y monitoreo de modelos en producción.
9. ¿Qué rastrea MLflow en el contexto de la gobernanza de la IA?
MLflow = Seguimiento de experimentos + Registro de auditoría. Registrar métricas de equidad como mlflow.log_metrics().
10. ¿Qué establece el Anexo IV del EU AI Act (Documentación Técnica) para sistemas de alto riesgo? 2 pts
El Anexo IV define 8 secciones obligatorias. Debe estar disponible antes de la comercialización.
11. ¿Con qué frecuencia debe actualizarse la Documentación Técnica según el Art. 11?
Art. 11: La documentación debe mantenerse actualizada — con cada versión del modelo.
12. Un modelo de crédito muestra para solicitantes < 25 años una TPR de 0.68 frente a 0.91 en general. ¿Cuál es la reacción correcta?
Subdesempeño sistemático para un grupo = Sesgo. Primero la causa raíz, luego la mitigación.
13. ¿Cuál es la diferencia entre SHAP para modelos de ML clásicos y LLMs?
LLMs: estocásticos, muchísimos parámetros, Atención ≠ Importancia. La explicabilidad es fundamentalmente más difícil.
14. ¿Qué métrica de RAGAS mide si una respuesta RAG está respaldada por los documentos recuperados?
fidelidad = Grounding-Score. Indica cuánto de la respuesta es verificable en el contexto.
15. ¿Qué ofrece la Microsoft Responsible AI Toolbox además de Fairlearn?
RAI Toolbox = Fairlearn + Análisis de Errores + Explicabilidad + Causal + Contrafactuales.
16. ¿Cuál es la mejor herramienta para la detección de desviaciones en producción?
Evidentemente: especializado en Data Drift, Model Drift, Calidad de Datos — en Producción.
17. Un agente tiene: acceso a CRM (PII), búsqueda web (no confiable), envío de correos electrónicos. ¿Cuál es el riesgo? 2 pts
Tríada Letal: Atacante inyecta a través de búsqueda web → Agente accede al CRM → envía por correo electrónico.
18. ¿Qué significa el Principio de Menor Privilegio para los agentes de AI?
PoLP: Alcance de capacidad mínima. Nivel de confianza 'bajo' = sin escritura, sin API externa, sin correo electrónico.
19. Un agente espera 5 minutos para la aprobación HITL. Ninguna persona responde. ¿Qué sucede?
Fail-closed: El tiempo de espera no es un "ok" implícito. En caso de incertidumbre, bloquear.
20. Está desarrollando un sistema de puntuación de crédito. ¿Qué stack es completamente correcto para el EU AI Act de alto riesgo? 2 pts
El alto riesgo necesita: Medición de equidad + Explicabilidad + Registro de auditoría + Monitoreo de deriva + Documentación técnica + Supervisión humana.