个人资料
正文

微侃医林 187: 临床思维(三 可能性比,四 循证医学与证据误区)

(2025-03-09 16:49:00) 下一个

三 不确定性与量化可能性 — 可能性比(Likelihood ratio)
四 循证医学与证据误区

我思,故我在。 —笛卡尔

目录:

一 良医三大要素
医德,知识技术,临床思维的习惯和能力
二 不确定性与量化可能性 — 概率(Probability)
I:临床充满不确定性
II: 钟形曲线与临床思维
III: 三种概率:简单概率、复合概率和条件概率
IV: 概率操作与概率误区
三 不确定性与量化可能性 — 可能性比(Likelihood ratio)
四 循证医学与证据误区
五 推理
I: 演绎推理(Deductive Reasoning)
II: 归纳推理(Inductive reasoning)
III: 溯因推理 (Abductive reasoning)
六 两种临床思维方式及思维误区
I: 经验直觉思维
II: 分析思维
七 理性思维者若干特性[2]
八 临床思维偏见和误区[2]
九 我的临床思维

三 不确定性与量化 — 可能性比(Likelihood ratio)

Possibility, probability, likelihood, 中文翻译都是可能性。医学思维理论中, Possibility是若干可能发生的事件, 我们想要诊断或者排除的疾病 — 心肌梗塞、中风、肺炎等等。 Probability 是这些事件的概率。 Likelihood 是如果一个假设成立,得到有关证据的概率。例如一个病人发生了心肌梗塞,肌钙蛋白阳性的概率。Likelihood 像是敏感性(Sensitivity = 阳性结果人数/病人人数)。

我关心的是病人患病的概率,是未知数。检查结果的概率只是帮助我诊断的手段而已,是已知数。不过Likelihood 来历不小,这个概念的提出者罗纳德·艾尔默·费希尔爵士(Sir Ronald Aylmer Fisher 1890 – 1962 ) 是英国的一位全才。他是数学家、统计学家、生物学家、遗传学家。他是“几乎单枪匹马地奠定了现代统计科学基础的天才”, “20世纪统计学界最重要的人物”。1918 年,他发表了《孟德尔遗传假说下的亲属相关性》,用数学将孟德尔遗传学和达尔文的自然选择结合起来。20世纪30年代末40年代初,李森科在苏联步步高升,苏联的顶级遗传学家被斯大林作为人民敌人的帮凶一扫而光。

FisherFisher in 1913(维基)

Likelihood ratio (LR) 比Likelihood 更重要。
阳性可比性比(Positive Likelihood ratio) [LR(+)] = 敏感性/(1-特异性) 或者说=真阳性率/假阳性率
阴性可比性比(Negative Likelihood ratio) [LR(-)] = 假阴性率/真阴性率 =(1-敏感性)/特异性

统计学家说:LR让我们思维的权衡点、或者倾向偏移,而不是概率本身。

LR(+)数值越高,真阳性率越高于假阳性率,权衡点偏向真阳性,阳性结果的价值就越高。LR(+)= 1, 真阳性率等于假阳性率,这个检查就是向天上甩硬币,没用。LR(+)=2-3,真阳性率是假阳性率的2-3倍,检查有价值。LR(+)10,真阳性率是假阳性率的10倍,检查阳性几乎肯定是真阳性,病人真的有病。

LR(-)数值越低,假阴性率越低于真阴性率,阴性结果的价值就越高。LR(-)= 0.2-0.3,真阴性率是假阴性率的3.3-5倍,检查有价值。LR(-)= 0.1,真阴性率是假阴性率的10倍,检查结果阴性几乎肯定是真阴性,病人真的没病。

优势比(Odds) = 概率/(1-概率)= 发生的概率/不发生的概率 。一个病人冠心病的概率是 25%,则不发生的概率是75%。我们倾向于认为他/她发生冠心病的Odds 是1/3。有时候我认为Odds 是画蛇添足、文字游戏。概率25%已经给了我一个清楚的概念,不需要拐来拐去拐一个1/3出来。

LR (+) 或者 LR(-) x 检查前Odds =检查后Odds。

假设一个胸痛病人,冠心病基础概率是45%,实验室检查肌钙蛋白敏感性是90%,特异性是85%。
LR (+) = 0.9/0.15 = 6;LR(-)= 0.1/0.85 = 0.117。肌钙蛋白检查含金量非常高。
检查前Odds, 或者说基础Odds =0.45/0.55 = 0.88。
肌钙蛋白阳性,检查后Odds = 6 x 0.88 = 5.88, 有心肌梗塞的概率与无心肌梗塞概率之比将近6:1。
肌钙蛋白阴性,检查后Odds = 0.117 x 0.88 = 0.1, 有心肌梗塞的概率与无心肌梗塞概率之比是1:10。

根据Odds 也可以判断病人患病可能性多大。但是Odds 让我感到别扭,我更喜欢概率。Odds 可以转换为概率。
Odds = 概率/(1-概率),概率=Odds/(1+Odds)。
继续用上面的例子:
肌动蛋白阳性,检查后概率=5.88/(1+5.880) = 85%。如果肌钙蛋白阳性,发生心肌梗塞的概率从45%上升到85%。
肌动蛋白阴性,检查后概率=0.1/(1+0.1) = 9%。肌钙蛋白阴性,发生心肌梗塞的概率下降到9%。

作者说[1]: 上面的计算很方便,我们几乎可以马上心算概率。我倒是感到很不方便,要根据基础概率,敏感性和特异性,首先计算LR(+), LR(-) 和Odds, 再计算检查后Odds, 再把Odds 换算成检查后概率。用前面的贝叶斯公式8和9,一步就算出来了,我为什么要去弯弯绕?

LR(+) 数值越高,阳性检查结果增加疾病存在的Odds和概率,帮助确诊。LR (-) 数值越低,阴性检查结果降低疾病存在的Odds和概率,帮助排除诊断。但是LR(+) 和LR(-)都是由敏感性和特异性两个指标决定。敏感性越高,阴性检查结果就越容易排除诊断。 特异性越高,阳性检查结果就越容易确定诊断。 Likelihood ratio 自然可以帮助诊断(确定或者排除),仍然是拖泥带水,没有敏感性特异性直接方便。

不少实验室检查和图像检查都有Likelihood ratio 资料, 如心电图ST段上抬与心肌梗塞,胸片肺水肿与心衰,脑钠肽与心衰,D-二聚体与肺动脉栓塞。

举一个心衰的例子:
半夜三更突然呼吸困难(paroxysmal nocturnal dyspnea PND) LR + 2.6,LR – 0.7。阳性可以增加一点概率,阴性不能排除。
体位性呼吸困难(Orthopnea)LR+ 2.2,LR-0.65。和PND 差不多.
第三心音(S3 gallop): LR + 13,LR -0.83。和胸片差不多,阳性帮助确诊,阴性不能帮助排除。
胸片CXR: LR+ 13.5,LR(-) 0.48。胸片如果阳性,心衰的可能性大为增加。胸片阴性,没有什么意义,不能排除心衰。
上面这些症状体征和胸片,结果阳性可以帮助诊断,结果阴性对排除诊断没有什么帮助。我感到困惑,一个病人什么症状体征胸片的心衰表现都没有,我仍然不能说他/她没有心衰?我经常依靠PND和体位性呼吸困难帮助排除心衰,看来我搞错了?

肺炎的例子[5]:
呼吸扩张不对称:LR+44,LR-NS
叩诊实音:LR+3.6,LR-NS
支气管呼吸音:LR+3.3,LR-0.9
语音增强(Egophony):LR+4.1,LR-NS
湿罗音:LR+2.8,LR-NS 0.8。
和心衰的例子一样,阳性体征可以帮助确诊,阴性没有什么意义。今天的肺炎病人,很少有这些阳性体征。另一本书说肺炎的体征,对诊断没有任何帮助。我更相信这本书,也许是给自己马马虎虎查体找借口。也许我没有遇到几个阳性体征。

看着这些数据,我总是想:这些数据是怎么来的?提供数据的人群有多大?代表了普遍的人群还是特定的人群?收集数据的医生,特别是作体检的医生,具有多大的代表性?这些LR(+)和LR (-),只是大致估计,仅作参考,而且不可能适用于任何人群,任何医生群体。但是扫一扫这些数据,可以让医生的判断有一个量化的估计,虽然这些量化不可能是精确的数字。

Normogram另外还有这种列线图(nomogram)(图来自网络), 只要知道基础概率(pretest probability),知道检查的LR(+)(-), 知道检查结果,一查就知道检查后的概率。

医生每天看病人查房,既不会计算Odds、概率,也不会查列线图。但是有这些概念,遇到困难病例时查一查,算一算,可以帮助反思审查自己作出的诊断和治疗决定,可以防止自己偏离轨道太远,防止闹笑话。不过,我自己不用LR和Odds。知道概率(临床更常用发病率Prevalence)、敏感性和特异性,可以推算阳性预测率、阴性预测率足够了。两者都是为了判断检查后的概率,计算方法表达方式不同而已。

四 循证医学与证据误区

今日行医,是根据证据行医(Evidence based medicine EBM),用什么药物,体内安装什么医疗装置,是手术还是经导管换瓣膜,都得有证据支持。不是所有的证据生而平等,社交媒体、微信帖子不足为凭,直接跳过。 证据等级(不同的协会组织,细节有所差别):
• IA 多个随机对照临床试验。
• IB 一个随机对照临床试验。
• IIA 一个非随机对照临床试验。
• IIB 一个病例对照(case-control)或队列研究(cohort study)。
• III 病例报告
• IV专家意见。

这些证据,还要判断质量,作者对这些证据是非常有信心,还是没有任何信心。根据证据等级和质量,作者推荐强度:
• A 级:证据充分,好处远远超过潜在风险, 推荐使用。
• B 级:证据合理,好处远远超过潜在风险, 推荐使用。
• C 级:益处和风险之间的平衡太过接近,不适合作为一般性建议, 除非有个人考虑。
• D 级:风险大于潜在益处。临床医生不应该常规用于无症状患者。
• 一级:科学证据缺乏、证据质量低劣或相互矛盾,无法评估风险与收益的平衡。医生应帮助患者了解其不确定性。

证据不是生来平等,头等证据也不是个个铁证如山。要警惕证据误区:
• 企业支持的研究,报喜不报忧。
• 发表偏见,往往是有效的结果就报告,无效的结果不报告。和上面的企业报喜不报忧相似,但这是杂志主编的误区。
• 研究者偏见和利益冲突。
• 企业操纵资料。
• 不能看到病人层次的资料。
• 刀手。
• 企业赞助的继续医学教育(CME)。
• 直接对消费者广告。
• 研究的人群没有代表采用此项治疗的人群。
• 相对危险误区:假设一个预防冠心病的药物,使冠心病5年发病率降低0.5%,而对照使之降低0.3%。相对危险降低了40%,看起来效果不错甚至惊人。 但是绝对危险只降低了0.2%,微不足道。读资料,要习惯看绝对危险变化。看需要治疗人数(NNT)也是好主意。NNT 越高,效果或者经济效益就越成问题。
• 终点(End point)替代问题。终点是判断疗效的指标,如死亡率。治疗冠心病的药物,除了死亡率,自然还有心肌梗塞发生率,心血管死亡率。治疗心衰的药物,还得加上心衰死亡率,心衰住院率。替代终点,就是用其它指标来判断疗效,如脑钠肽,如血脂。当年一个它仃药物Simvastatin,最初临床研究证明它可以缩小颈动脉粥样硬化斑块。FDA据此批准。批评者说,这是替代终点,不能作为批准的证据。Simvastatin后来撤出市场。Merck 公司卧薪尝胆,重作临床试验(4S临床试验),终点是死亡率,冠心病发病率。试验证明有效,再次杀入市场。
• 研究设计误区或者误导,新的药物或者器械,不是与已经在使用的药物器械对照,而是与安慰剂对照。而批准以后,这些新的药物往往比老药贵几倍甚至几十倍,而疗效并不比老药优越。这是普遍现象。

关于制药公司如何操纵研究资料,操纵证据,《Sickening: How Big Pharma Broke American Health Care and How We Can Repair It》有详细的介绍。微侃医林155-159 山寨了若干内容。

我的习惯是,遇到疑问就到UpToDate, 几个头号医学杂志(JAMA, NEJM, Annals of Internal Medicine, JAMA Internal Medicine), 大医学协会(AHA,ACC, ADA)的指南和Cochran Review 找答案。大部分时候马马虎虎扫一下,然后无条件接受。有时候怀疑那些答案或者推荐,就仔细读文章。有的时候读了文章,感到结论,推荐的治疗或者治疗改变,证据不够充分,于是决定不采用所推荐的治疗。曾经写过两篇:微侃医林 93: 心衰神药诺欣妥(Entresto);微侃医林 83: 头号杂志文章不总是一锤定音。虽然质疑上述来源的若干文章,对于这些权威来源还是信任的。自从读了《Sickling》一书,对这些来源也开始疑神疑鬼。读文章,首先是挑漏洞,而不是来者照收。

循证医学,如果头号医学杂志,头号医学协会/指南,都有被收买的嫌疑,或者至少有拿人手软的嫌疑,到哪里去找证据?我成了证据虚无者,我不知所措。不可不信,不可全信,抱一颗怀疑之心。只能这样了。

严格说,循证医学不属于临床思维,至少不属于诊断思维。但是在选择治疗,特别是那些昂贵的治疗时,有必要查查证据,查查这些治疗究竟多有效,值不值那么多钱。美国内科医师学会(American College of Physicians ACP)已经开始把经济因素列入指南中[7]。

[ 打印 ]
评论
目前还没有任何评论
登录后才可评论.