SeetoMD

感恩,关怀,友谊
正文

比较 AI 与医生,来一场真正公平的测试 司徒

(2025-07-10 00:17:42) 下一个


比较 AI 与医生的诊断能力,我们应该设计一场真正公平的测试

司徒

最近有一项实验使用了304个来自《新英格兰医学杂志》的标准病例。AI系统与来自美国和英国、拥有5到20年临床经验的21位医生进行对比。他们被要求逐步处理这些病例,包括选择检查项目、问诊内容,以及进行鉴别诊断。

结果显示,当AI系统搭配使用OpenAI最新的大型语言模型时,能够在85.5%的病例中做出正确诊断;相比之下,这21位医生的平均准确率只有20%。

乍一看,AI似乎遥遥领先。但问题在于:AI拥有几乎整个世界的医学知识和数据库,而医生却被禁止使用任何他们平时会依赖的资源——比如同事会诊、医学书籍,甚至AI工具本身。

这样的对比根本不公平,也不符合真实医疗情境。这就像一场考试:一个人是开卷考试,另一个人却被要求闭卷,不能查资料也不能问问题。在这种设定下,结果从一开始就已经注定了。

更值得指出的是,这些病例并不是来自现实门诊的复杂情境,而是医生事先整理并润色过的教学案例。这类结构清晰、用词标准的病例,正是AI最擅长处理的,但却无法代表真实世界中病人的表现方式。

在现实生活中,病人不会说:“我左臂无力,怀疑锥体束受损。”他们往往只是说:“我胳膊感觉怪怪的。”这种“怪”,可能是疼痛、麻木、无力,也可能是心理压力或焦虑。医生不仅要理解这些模糊的表达,还要通过病人的语气、表情、行为,判断其中是否夹杂情绪、社交甚至法律层面的因素。

我觉的来一次公平的测试是必要的。真正有说服力的比较,应该是这样的:
    1.    一方是由AI驱动的机器人,拥有数据、传感器和推理能力;
    2.    另一方是经验丰富、具备执照的医生,合理地将AI工具融入到诊疗流程中作为辅助。

两者都必须面对真实的病人:亲自问诊、体格检查、情绪评估,在不确定中做出诊断,而不是仅仅处理整理好的纸面病例。然后再比较两者的表现。

在这样的公平实验尚未完成之前,宣称AI能够取代医生,是可能引起公众的误会。

当前的研究最多只能说明:AI在处理为它量身打造、结构清晰的标准问题时表现出色。而医生在被剥夺所有常规工具的情况下自然处于劣势,这本不令人惊讶。

医学不是纸上谈兵,也不仅仅是逻辑推理或数据匹配。医疗的本质是责任,是人对人的理解、同理心与承诺。

我们有必要认真追问:所谓“AI超过医生”的说法,是建立在怎样的测试和前提之上。否则,这些报道只会误导公众,让人错误地以为医生已经可以被AI/机器替代了。

[ 打印 ]
阅读 ()评论 (4)
评论
hagerty 回复 悄悄话 我希望看到的测试是,老医生和医学院刚毕业的学生,想用AI都可以。谁的诊断更准。
如果老医生没有更准,那就简单了。未来不用专找老军医了;)
北京_01link 回复 悄悄话 现在的医生十分依靠检查结果,而非病人的叙述。所以AI必将取代医生。至少是那些凭检查结果治病的医生。
cager812 回复 悄悄话 “真正公平”---不可能的鉴定。
Kwseeto 回复 悄悄话 真正的測試不是 “拥有全世界文献的AI对闭卷考试的医生,而是「AI 驅動的系統」對比「使用 AI 的有经验的專科醫師」。

兩者都應該接觸真實的病人——不是教科書裡挑出來的理想案例。他們應該親自問診、做体检、下診斷,然後再比較結果:診斷準確度、安全性、病人信任程度、長期效果。這才是公平的比較。
而事實是:我們至今還沒有真正做過這樣的測試。
登录后才可评论.