SeetoMD

司徒医生，俄勒冈/加州

首页文章列表博文目录

个人资料

Kwseeto (热门博主)

给我悄悄话

博客访问：

比较 AI 与医生，来一场真正公平的测试司徒

(2025-07-10 00:17:42) 下一个

比较 AI 与医生的诊断能力，我们应该设计一场真正公平的测试

司徒

最近有一项实验使用了304个来自《新英格兰医学杂志》的标准病例。AI系统与来自美国和英国、拥有5到20年临床经验的21位医生进行对比。他们被要求逐步处理这些病例，包括选择检查项目、问诊内容，以及进行鉴别诊断。

结果显示，当AI系统搭配使用OpenAI最新的大型语言模型时，能够在85.5%的病例中做出正确诊断；相比之下，这21位医生的平均准确率只有20%。

乍一看，AI似乎遥遥领先。但问题在于：AI拥有几乎整个世界的医学知识和数据库，而医生却被禁止使用任何他们平时会依赖的资源——比如同事会诊、医学书籍，甚至AI工具本身。

这样的对比根本不公平，也不符合真实医疗情境。这就像一场考试：一个人是开卷考试，另一个人却被要求闭卷，不能查资料也不能问问题。在这种设定下，结果从一开始就已经注定了。

更值得指出的是，这些病例并不是来自现实门诊的复杂情境，而是医生事先整理并润色过的教学案例。这类结构清晰、用词标准的病例，正是AI最擅长处理的，但却无法代表真实世界中病人的表现方式。

在现实生活中，病人不会说：“我左臂无力，怀疑锥体束受损。”他们往往只是说：“我胳膊感觉怪怪的。”这种“怪”，可能是疼痛、麻木、无力，也可能是心理压力或焦虑。医生不仅要理解这些模糊的表达，还要通过病人的语气、表情、行为，判断其中是否夹杂情绪、社交甚至法律层面的因素。

我觉的来一次公平的测试是必要的。真正有说服力的比较，应该是这样的：
1. 一方是由AI驱动的机器人，拥有数据、传感器和推理能力；
2. 另一方是经验丰富、具备执照的医生，合理地将AI工具融入到诊疗流程中作为辅助。

两者都必须面对真实的病人：亲自问诊、体格检查、情绪评估，在不确定中做出诊断，而不是仅仅处理整理好的纸面病例。然后再比较两者的表现。

在这样的公平实验尚未完成之前，宣称AI能够取代医生，是可能引起公众的误会。

当前的研究最多只能说明：AI在处理为它量身打造、结构清晰的标准问题时表现出色。而医生在被剥夺所有常规工具的情况下自然处于劣势，这本不令人惊讶。

医学不是纸上谈兵，也不仅仅是逻辑推理或数据匹配。医疗的本质是责任，是人对人的理解、同理心与承诺。

我们有必要认真追问：所谓“AI超过医生”的说法，是建立在怎样的测试和前提之上。否则，这些报道只会误导公众，让人错误地以为医生已经可以被AI/机器替代了。

[ 打印 ]

[ 加入书签 ]

阅读 ( ) ┆ 评论 (18)

Kwseeto 2025-07-12 01:38:37 回复悄悄话回复 '无名2024' 的评论 : 的确, 青年医生拿起AI会胜过不懂AI的老医生most of the time !

无名2024 2025-07-11 18:05:08 回复悄悄话帖主要求的公平测试本身就点明了AI的重要性：再有经验的医生没有AI就没法赢就不公平。LOL

帖子开头的测试大概也许只是意图说明AI的重要性。恐怕不是要彻底驱赶医生。

不过AI的学习能力（或人类再叠加给AI的能力）是超越医生学习能力的。特种AI代替部分医生的日子可能不远了（十年内？）比如普通日常家庭医生的工作（年度检查，看不了就转专科）。

关键是政府监管能否通过 - 医疗事故找AI追责？像家庭医生大概率不会涉及严重医疗事故的也许会先放行。

大河边的人 2025-07-11 16:22:09 回复悄悄话外行不要把当医生想象得太简单了，不说基本的望，听，叩，导管，光纤镜检查和门诊手术技术，很多病人脑袋根本就是没有逻辑的或表达能力有障碍，甚至根本说不出话来。没有医生的引导连个主诉都归纳不出来。计算机辅助诊断早在计算机应用初期就试过，更本代替不了人的，和数据库类似只能做个工具。

Kwseeto 2025-07-11 15:34:35 回复悄悄话回复 'earth2029' 的评论 : 使医生知识库迅速增长

Kwseeto 2025-07-11 15:33:51 回复悄悄话回复 'Yangtsz' 的评论 : AI 的确很有重尤其在医生指导下

Yangtsz 2025-07-11 09:21:14 回复悄悄话我对AI诊断报有极大的期待和信心。
1. AI非常耐心而且随时服务，它可以长时间收集病人对症状的描述，包括及时更新，判断
2.AI非常专注。如果病人长期使用，它会记住所有历史数据，检查结果，以此帮助诊断
3. AI 可以自动联接其它手机应用，对病人的生活习惯，旅游地点，饮食，运动习惯了如指掌。
一般人没有能力支付个人化的顶级医疗服务，AI 就是个人医生的通用版。热切期盼医疗专用AI的诞生。

earth2029 2025-07-10 20:59:02 回复悄悄话应该是缩小了资深医生和普通的差别、降低了医生执业的门槛，以后医生多了医疗费用就下降了。

Kwseeto 2025-07-10 20:52:11 回复悄悄话回复 'hagerty' 的评论 : 使用AI也要经验就像用听诊器一样

hagerty 2025-07-10 20:47:41 回复悄悄话我个人直觉，一个医学院毕业的学生精通AI的，会比一个不会AI的老医生更准确的诊断病情。或者说，一旦都用了AI，新老医生就一个水平了。所以我很想看到类似的测试。

Kwseeto 2025-07-10 16:08:00 回复悄悄话回复 'hagerty' 的评论 : 这个问题问得好。AI的確可以提供無數文獻與資訊，但醫療現場不是文獻的複誦比賽。真正的病人，往往不是教科書裡的標準病例。有些病徵混雜，有些疾病表現方式變異不定，有些情況即使全世界的文獻資料庫裡也找不到先例。這時候，臨床經驗，就成了關鍵。

hagerty 2025-07-10 15:09:04 回复悄悄话 Kwseeto 发表评论于 2025-07-10 14:59:58
回复 'hagerty' 的评论 : 一定的个人经验还是需要的
====
一个人再有经验，比不过AI综合所有人类经验吧。

Kwseeto 2025-07-10 15:04:50 回复悄悄话回复 'cager812' 的评论 : 把AI机器人送进病房单独问病史检查和诊断，对比真正的医生（可查AI和问同事），这是较公平的对比

Kwseeto 2025-07-10 15:01:11 回复悄悄话回复 '北京_01link' 的评论 : 如果医生不听病人叙述就没有尽责

Kwseeto 2025-07-10 14:59:58 回复悄悄话回复 'hagerty' 的评论 : 一定的个人经验还是需要的

hagerty 2025-07-10 14:21:26 回复悄悄话我希望看到的测试是，老医生和医学院刚毕业的学生，想用AI都可以。谁的诊断更准。
如果老医生没有更准，那就简单了。未来不用专找老军医了;)

北京_01link 2025-07-10 12:24:45 回复悄悄话现在的医生十分依靠检查结果，而非病人的叙述。所以AI必将取代医生。至少是那些凭检查结果治病的医生。

cager812 2025-07-10 12:14:13 回复悄悄话 “真正公平”---不可能的鉴定。

Kwseeto 2025-07-10 01:53:06 回复悄悄话真正的測試不是 “拥有全世界文献的AI对闭卷考试的医生，而是「AI 驅動的系統」對比「使用 AI 的有经验的專科醫師」。

兩者都應該接觸真實的病人——不是教科書裡挑出來的理想案例。他們應該親自問診、做体检、下診斷，然後再比較結果：診斷準確度、安全性、病人信任程度、長期效果。這才是公平的比較。
而事實是：我們至今還沒有真正做過這樣的測試。

登录后才可评论.

SeetoMD

比较 AI 与医生，来一场真正公平的测试 司徒

比较 AI 与医生，来一场真正公平的测试司徒