人工智能"医生"作弊医学测试

AI"医生"在作弊医学院考试

dpa/图片联盟通过盖蒂图片社

世界上最先进的人工智能系统本质上是通过作弊方式通过医学测试，它们取得令人印象深刻的分数并非通过真正的医学知识，而是通过利用这些测试设计中的漏洞。这一发现对价值千亿的医疗AI行业以及可能接触AI驱动医疗保健的每位患者都有巨大影响。

医疗AI作弊问题

可以将医疗AI基准测试视为衡量人工智能系统对医学理解程度的标准化测试。就像学生参加SAT考试证明他们已准备好上大学一样，AI系统参加这些医疗基准测试来证明它们已准备好帮助医生诊断疾病和推荐治疗方案。

但微软研究院最近发表的一项突破性研究揭示，这些AI系统实际上并没有学习医学。它们只是在考试方面变得非常擅长。这就像发现一个学生获得完美SAT分数不是通过理解数学和阅读，而是通过记忆哪个答案选项通常最正确。

研究人员对六个顶级AI模型进行了严格的压力测试，发现这些系统通过复杂的应试技巧而非真正的医学理解获得高医学分数。

研究团队发现AI系统伪造医学能力的多种方式，使用的方法几乎肯定会导致人类学生被开除：

当研究人员简单地重新排列多项选择题答案顺序，例如将选项A移至选项C时，AI性能显著下降。这意味着系统学习的是"答案通常在B位置"而非"肺炎导致这些特定症状。"
对于需要分析医学图像如X光片或MRI的问题，即使图像完全被移除，AI系统仍然提供正确答案。例如，GPT-5在没有任何图像的情况下，在视觉要求问题上仍保持37.7%的准确率，远高于20%的随机概率水平。
AI系统找出如何利用错误答案选项中的线索猜测正确答案，而非应用真正的医学知识。研究人员发现这些模型严重依赖错误答案的措辞，即所谓的"干扰项"。当这些干扰项被非医学术语替代时，AI的准确率崩溃。这揭示它依赖的是应试技巧而非真正的理解。

这项研究出现在AI正迅速扩展到医疗保健领域的时刻。目前80%的医院使用AI改善患者护理和运营效率，医生越来越依赖AI进行从读取X光片到建议治疗的各种任务。然而，这项研究表明，当前的测试方法无法区分真正的医学能力和复杂的应试算法。

微软研究院的研究发现，像GPT-5这样的模型在医学图像挑战中达到80.89%的准确率，但当图像被移除时下降到67.56%。这13.33个百分点的下降揭示了对非视觉线索的隐藏依赖。更令人担忧的是，当研究人员用支持不同诊断的图像替换医学图像时，尽管文本问题没有变化，模型准确率下降了超过三十个百分点。

考虑这种情况：一个AI系统在医学诊断测试中获得95%的分数，并被部署在急诊室帮助医生快速评估患者。但如果该系统通过应试技巧而非医学理解获得高分，当面对实际患者时，如果其病情与从测试问题中学到的模式不匹配，它可能会错过关键症状或推荐不适当的治疗。

预计到2030年，医疗AI市场将超过千亿，全球医疗系统正大量投资AI诊断工具。基于令人印象深刻的基准分数购买AI系统的医疗机构可能在不知情的情况下引入重大患者安全风险。微软研究人员警告"医学基准分数并不直接反映现实世界的准备程度"。

影响超出测试分数。微软研究揭示，当要求AI模型解释其医学推理时，它们经常生成"令人信服但有缺陷的推理"或提供"由虚构推理支持的正确答案"。一个例子显示，一个模型正确诊断皮肌炎的同时描述图像中不存在的视觉特征，因为根本没有提供任何图像。

即使AI采用加速，医学对AI的快速采用让研究人员担忧，专家警告医院和大学必须加强行动填补监管空白。

与通过理解疾病如何影响人体来学习的人类医学生不同，当前的AI系统通过在数据中寻找模式来学习。这创造了微软研究人员称为"捷径学习"的现象，即寻找到达正确答案的最简单路径而不发展真正的理解。

研究发现，AI模型可能诊断肺炎不是通过解释放射学特征，而是通过学习"产生性咳嗽"加"发热"在训练数据中与肺炎统计上共现。这是模式匹配，而非医学理解。

《自然》杂志的最新研究强调了类似担忧，显示当这些系统未能展示对医学环境的真正理解时，对AI辅助健康系统的信任仍然存在问题。

微软研究人员主张重新思考我们如何测试医疗AI系统。我们需要的不是依赖基准分数，而是能够检测AI系统何时在游戏测试而非学习医学的评估方法。

医疗AI行业面临关键时刻。微软研究发现，令人印象深刻的基准分数创造了一种准备就绪的幻觉，这可能对患者安全产生严重后果。随着AI继续扩展到医疗保健领域，我们验证这些系统的方法必须发展以匹配它们的复杂性及其复杂失败的潜力。

来源：https://www.forbes.com/sites/larsdaniel/2025/10/03/ai-doctors-cheat-medical-tests/