比较 AI 与医生的诊断能力,我们应该设计一场真正公平的测试
司徒
最近有一项实验使用了304个来自《新英格兰医学杂志》的标准病例。AI系统与来自美国和英国、拥有5到20年临床经验的21位医生进行对比。他们被要求逐步处理这些病例,包括选择检查项目、问诊内容,以及进行鉴别诊断。
结果显示,当AI系统搭配使用OpenAI最新的大型语言模型时,能够在85.5%的病例中做出正确诊断;相比之下,这21位医生的平均准确率只有20%。
乍一看,AI似乎遥遥领先。但问题在于:AI拥有几乎整个世界的医学知识和数据库,而医生却被禁止使用任何他们平时会依赖的资源——比如同事会诊、医学书籍,甚至AI工具本身。
这样的对比根本不公平,也不符合真实医疗情境。这就像一场考试:一个人是开卷考试,另一个人却被要求闭卷,不能查资料也不能问问题。在这种设定下,结果从一开始就已经注定了。
更值得指出的是,这些病例并不是来自现实门诊的复杂情境,而是医生事先整理并润色过的教学案例。这类结构清晰、用词标准的病例,正是AI最擅长处理的,但却无法代表真实世界中病人的表现方式。
在现实生活中,病人不会说:“我左臂无力,怀疑锥体束受损。”他们往往只是说:“我胳膊感觉怪怪的。”这种“怪”,可能是疼痛、麻木、无力,也可能是心理压力或焦虑。医生不仅要理解这些模糊的表达,还要通过病人的语气、表情、行为,判断其中是否夹杂情绪、社交甚至法律层面的因素。
我觉的来一次公平的测试是必要的。真正有说服力的比较,应该是这样的:
1. 一方是由AI驱动的机器人,拥有数据、传感器和推理能力;
2. 另一方是经验丰富、具备执照的医生,合理地将AI工具融入到诊疗流程中作为辅助。
两者都必须面对真实的病人:亲自问诊、体格检查、情绪评估,在不确定中做出诊断,而不是仅仅处理整理好的纸面病例。然后再比较两者的表现。
在这样的公平实验尚未完成之前,宣称AI能够取代医生,是可能引起公众的误会。
当前的研究最多只能说明:AI在处理为它量身打造、结构清晰的标准问题时表现出色。而医生在被剥夺所有常规工具的情况下自然处于劣势,这本不令人惊讶。
医学不是纸上谈兵,也不仅仅是逻辑推理或数据匹配。医疗的本质是责任,是人对人的理解、同理心与承诺。
我们有必要认真追问:所谓“AI超过医生”的说法,是建立在怎样的测试和前提之上。否则,这些报道只会误导公众,让人错误地以为医生已经可以被AI/机器替代了。
兩者都應該接觸真實的病人——不是教科書裡挑出來的理想案例。他們應該親自問診、做体检、下診斷,然後再比較結果:診斷準確度、安全性、病人信任程度、長期效果。這才是公平的比較。
而事實是:我們至今還沒有真正做過這樣的測試。