1. 人口平等差异 (DPD) 测量什么？

A 群体之间模型准确性的差异 B 受保护群体之间正预测率的差异 C 训练时间的差异

2. 哪个 Python 库提供用于按组划分的公平性指标的 MetricFrame？ 2 pts

A scikit-learn B Fairlearn (Microsoft) C TensorFlow

3. 为什么人口平等和均等机会不能同时满足？

A 因为它们需要不同的库 B 不可能定理：除非基准率相等，否则它们互相排斥 C 因为Equalized Odds需要更多数据

4. SHAP 为单个预测计算什么？

A 模型的总体准确性 B 每个特征对具体预测的贡献（Shapley Values） C 整个数据集的特征重要性

5. LIME 何时优于 SHAP？

A 在树模型中 — LIME 对于随机森林更快 B 当需要一个模型无关的、本地的解释方法时 C 在大型数据集上 — LIME 具有更好的扩展性

6. 一个高风险信贷模型的模型卡包含：公平性指标显示DPD=0.07。这意味着什么？ 2 pts

A 模型符合规定 — 0.07 低于 0.1 B 审查必要 — 0.07 超过了推荐的阈值 0.05 C 该模型必须立即关闭

7. 根据 EU AI Act Art. 12 需要记录什么——以及不需要记录什么？

A 所有原始数据包括PII以确保完整的可追溯性 B 输入哈希（无 PII）、预测、决策、模型版本、时间戳 C 仅最终决定，无需细节

8. 用于生产环境中的数据漂移检测的工具是什么？

A 熊猫 B 显然 C LIME

9. 在AI治理的背景下，MLflow跟踪什么？

A 仅模型准确性 B 实验参数、指标（包括公平性）、工件——完整的审计追踪 C 仅部署配置

10. EU AI Act 附录 IV（技术文档）对高风险系统有什么规定？ 2 pts

A 仅对模型类型进行简要描述 B 8 个必填部分：目的、开发过程、监控、准确性、公平性、合规声明等。 C 由认可审查员进行的认证

11. 技术文档需要根据Art. 11多长时间更新一次？

A 每年 B 在每次重大系统变更时 C 仅适用于第一个版本

12. 一个信贷模型显示，申请人年龄小于25岁的TPR为0.68，而总体TPR为0.91。正确的反应是什么？

A 可接受 — 年轻申请人通常信用记录较少 B 将模型从评分中移除，根本原因分析，重新部署前的偏见缓解 C 为此组调整阈值

13. 经典机器学习模型和大型语言模型（LLMs）的SHAP有什么区别？

A SHAP 在 LLMs 中的工作原理与在树模型中相同。 B 在LLMs中，注意力权重提供的解释有限——SHAP方法复杂且可靠性较低。 C LLMs 不需要可解释性，因为它们输出文本。

14. 哪种RAGAS指标衡量RAG答案是否由检索到的文档所支持？

A 答案相关性 B 上下文精度 C 忠实性

15. Microsoft Responsible AI Toolbox 提供了哪些超出 Fairlearn 的功能？

A 仅为Fairlearn指标提供更好的用户界面 B 错误分析、因果推断、假设情景和反事实在一个仪表板中 C 生产监控和警报

16. 哪个工具是生产漂移检测的最佳选择？

A SHAP B 显然 AI C IBM watsonx.governance

17. 一个代理具有：CRM访问权限（PII）、网页搜索（不可信）、电子邮件发送。这有什么风险？ 2 pts

A 最低风险——这是正常的业务功能 B 致命三重奏：同时允许通过提示注入进行数据外泄的所有三个组件 C 中等风险 — 仅当代理训练不佳时

18. 最小特权原则对AI代理意味着什么？

A 代理获得最少的计算资源 B 代理仅获得完成具体任务所需的最低限度的能力。 C 代理只能执行简单任务

19. 一个代理等待5分钟以获得HITL批准。没有人回应。会发生什么？

A 代理执行最低优先级的操作 B 代理继续等待——人工监督优先 C 超时 = 拒绝 (fail-closed)。操作未执行。

20. 您正在构建一个信用评分系统。哪个技术栈对于EU AI Act高风险是完全正确的？ 2 pts

A XGBoost + 良好的准确性 + DSGVO合规的日志记录 B XGBoost + Fairlearn (偏差 < 0.05) + SHAP + MLflow (审计) + Evidently (漂移) + 技术文档 (Annex IV) + HITL-Override C XGBoost + IBM watsonx.governance 许可证