病患悖论:为什么“过度”医疗不利于你的健康?
上QQ阅读APP看书,第一时间看更新

第一章 首先,不要伤害

还可能存在绝对的健康状态吗?应该说彻底不可能了。只要还没沦为药罐子、老病号,就称得上正常人了。不信就请一位全无病痛的人来试试,做一圈血液检查、扫描、X光或肠镜——可能就发现这边有项血液指标偏高,那边影像里有一处细微阴影。还说自己没病?唉!对过量医学试验的集体追捧已经让我们丧失理智,并且制造了一个大麻烦。筛查 [1]造成的巨大问题往往不为人知,甚至接受筛查的人都意识不到。

这就是疾病筛查的现状。筛查试验的对象不包括确诊患病或已有症状的人。首先,如果你病了,你需要的是针对性检查,而非筛查。如果你长了个令人担忧的包块,或感到自己可能会毫无预兆地倒下,又或有一处久不消散的皮肤瘙痒,以及别的什么身体不适,那你就有症状了。症状需要归类,这通常意味着你的医生会充分考虑“病史”,他将给你时间描述和阐释自己的感受。就像这样:“过去三个月里我感觉这处皮肤特别痒,把自己都挠出血了。我也不知道为什么,一洗澡情况就加重。”接着,医生会进一步问你一些问题。最近出过国吗?身边有其他症状相仿的人吗?用过什么新护肤品吗?

接下来,医生将为你做检查,寻找皮疹的痕迹,或是虱子、疥螨一类活泼小生物肆虐的迹象。诊断并不能一锤定音,为了确诊,你还得再做些检查——比如采集皮肤刮片或血液样本。最后,跟随确诊而来的是治疗。你还得复查随诊,以确保一切按计划进行,副作用没有让治疗失效或让情况变得更糟。

筛查的目的不是将患者归类诊治。不少政客并不明白这一点,可悲的是一些医护人员也是如此。例如,乳腺筛查面向的是没有乳房肿块症状的女性,抑郁症筛查则针对尚无精神疾患征兆的人群。然而事实上,筛查并不能在一位女士主诉自己胸痛,或一位男士吐露自己有自杀念头的时候,准确反映他们的身体状况。

理解这种区别非常关键。我曾收到患者言辞激烈的邮件,告诉我倘若他们再得不到筛查就要一命呜呼了。多数情况是,尽管这些人没做筛查,但医生已经结合他们的症状做了诊断。二者的意义截然不同。

所以,如果一位男士小便通畅、性生活正常、精神饱满,却决定做个前列腺检查,那么他所要求的就是筛查。

职业伦理要求医生既要向患者解释医疗干预[2]的好处,也要坦诚说明它的局限性和潜在危害。正如希波克拉底所说的:

“首先,不要伤害”

筛查简直把希波克拉底的精神抛到九霄云外去了,还不存在任何一种全无副作用的筛查呢。伤害在所难免,一切筛查项目都是赌博,我们在赌它带来的收益比造成的伤害大。这就是筛查如此难以理解,并被归结为一个看上去很美的迷局的本质原因所在。试着考虑一下这个问题:

有一种疾病会影响1%的人群,它是致命的,且尚无有效疗法。针对该疾病的筛查有90%的准确率[3]。那么,如果你的筛查结果是阳性,你有多大可能患病?

多数人读到这个问题都会说你有90%的概率患病,他们将认为你的当务之急是写下遗嘱,然后抓紧最后时刻完成一些愿望。看起来挺合逻辑:筛查的准确率是90%,所以这就是你患病的概率。

然而这大错特错。“90%的准确率”描述的是你在患病的同时又被检出阳性结果的可能性。如果有100名患者,只有90人——也即90%——会检出阳性。

这才是关键。如果你所筛查的疾病仅仅影响1%的人群,那么你的患病风险也不过是1%。

让我们把算术再简化些。假设我们有1000人,其中有10人——1000人的1%——患了病。如果筛查准确率是90%,它将检出9人。还有1个人其实是患者,可结果却是阴性。

但是对于没有患病的人,筛查准确率也是90%。这意味着,在990名健康的人当中,有99人虽然没有患病,但仍会检出阳性。

最终结果是那1000人中,有99+9人检出阳性,加起来是108人。

可是他们当中只有9个人真正患病了。

所以如果你的筛查结果是阳性,你真正患病的概率不过是9/108——大约10%。

筛查结果的准确性

在筛查准确率为90%、疾病影响为总人口1%的情况下,接受筛查的1000人结果分布如上。

我仍记得自己第一次听到这个结论时有多震惊。90%的准确率!这么先进的筛查竟然如此垃圾?

出现这样的情况,主要是因为这种疾病的发病率非常低。如果你对患病风险更高的人群做筛查——例如,在发病率达50%而非1%时做同样的筛查——那么它的准确检出率将大大提高。可是,筛查往往就是用于检验相对罕见的疾病的,这就意味着把阳性结果作为患病标志不可靠。

当然,有一些特殊的筛查十分奏效。例如格思里试验(the Guthrie Test),它主要用于检查新生儿代谢问题,以便在孩子出现脑损伤前予以治疗。这是我们拥有的最有效的筛查手段之一,可即便如此,阳性结果也仅在少数病例中得到确诊。

这同时也不幸地宣告,显而易见,大部分医学检验的阳性结果往往意味着检验出了毛病,而非患者出了毛病。这是有害的,为了弄清楚究竟谁出了毛病,患者不得不接受进一步检查。这将加剧他们的焦虑情绪,还可能造成直接的伤害。

筛查的症结

举个例子,我们为什么不做脑瘤筛查呢?脑瘤是一种严重疾病,可能致死或致残。“早发现、早治疗”难道不好吗?

1968年,世界卫生组织确立了有效筛查的标准。1例如它指出,筛查尚无有效疗法的疾病没有意义。当你去筛查脑瘤这样的不治之症,就算发现了1000个病例,你的工作也没什么用处——你的成果不过是更早找到了一些肿瘤罢了。你可能因此争论说筛查不是个好东西,在这种情况下,它当然没用了。

世界卫生组织关于筛查试验的标准释义

1.筛查的疾病应当对人体健康有重大影响。

2.该疾病存在公认有效的治疗手段。

3.患者能够得到诊断和治疗所需的设施。

4.疾病的潜伏期征兆或早期症状可被识别。

5.有合理的试验或检查方法。

6.筛查应适用于全体人群。

7.对包括从该疾病潜伏到发病过程在内的自然史已有充分了解。

8.有公允、公认的政策明确规定谁将作为患者接受治疗。

9.病例报告(包括诊断和治疗)费用占医疗总体支出的比例应平衡合理。

10.病例报告应是一个可持续程序,而非“一次性”计划。

威尔逊、容纳

世界卫生组织

日内瓦,1968

有效筛查意味着不仅发现了某种不明疾病,而且发现时你还来得及治疗它,要是能治愈就更理想了。完美的筛查不总是准确的,既没有侵入性也不会令人不适,有万无一失的治愈方法跟进,还不能有任何副作用。欢迎来到幻想世界!

世上根本不存在完美的筛查——你将在英国了解一系列被吹得天花乱坠的筛查项目,但它们离完美还差得远。

体检的神话

健康体检可谓哈利街 [4]诸多成功营销案例的典范之作。即使是聪明人也会上当,认为我们的身体就像汽车一样需要年检。一些有竞争力的诊所还搞起了连锁经营,把体检套餐包装得堪比飞机头等舱或健身房会员:划分出“高级套餐”“超级套餐”,更甚者还有“‘超级+’套餐”。这些检查项目的花费在几百到上千镑不等,专门面向那些期望“掌控”自身健康状况,并且不介意为自己的身体负担这样一笔开销的人群。Prescan公司正是从哈利街起家的,它声称“预防性检查使您及时发现问题,全面了解自己的身体状况”。2Lifescan公司则推出与乐购会员的绑定合作,并将“为您找出心脏病、肺癌、结肠癌、动脉瘤及骨质疏松症等多种疾病的早期信号”。3

好吧,死亡的风险无处不在。这些公司都试图让你相信,它们的检查将英雄般地把你从死亡边缘拯救回来。你要么得知自己一切正常,尽管这个消息以牺牲钱袋子为代价,但足以令你欢欣鼓舞;要么获悉自己被诊断出癌症或心脏病了,但还好在病程早期发现了问题,你依然是赢家。看起来这是场不论怎样都能赢的赌局。倘若检查结果显示“一切正常”,你当然会如释重负。要是发现了毛病,你也会为提早发现问题深感欣慰。

然而很不幸,这根本是假象。鉴于我们又不是汽车,那些诊所的筛查试验连最浅显的逻辑预设都不对。而且,它们往往复杂难懂,经常给出反常识的结论。

当你听说体检一次次扮演救世主的故事时,的确不容易发觉它们缺乏有力的证据支持。让我们看看Prescan官网首页的这则消息:

Prescan的核磁共振成像检查(MRI)发现我的肾脏上有一块2英寸 [5]那么大的肿瘤——要是没查出来,恐怕后果不堪设想!

另一家叫作Preventicum的机构服务着众多社会名流,它的网站意见栏里写着:

体检比我预期的要全面得多,医生借助MRI在我的脑部发现一处动脉瘤。毫不夸张地说,这如同晴天霹雳。无比幸运的是,Preventicum让我在尚能妥善治疗时发现了它,术后不到三个月我就重返工作岗位了。不论你是感到身体不适,或者只是想了解自己的健康状况,我都强烈推荐这项检查。Preventicum绝对是我的救命恩人。

MRI和CT是现代医学成像技术的佼佼者。相同的病灶,在50年前就像一团模糊的暴雪。而如今我们看到的是清晰的三维图像,肾脏、肝脏、肺部和大脑在扫描完成的几秒钟内就出现在显示器上了。现代设备越来越轻巧、安静,给人带来的焦虑感和痛苦也更小。随着它们的价格更加低廉、表现更加可靠,私人体检机构——大多数还接受信用卡结算——出现爆发式增长。

是体检,还是欺骗

豪华体检套餐多得让人眼花缭乱,这才是付费体验行业的核心问题。光是成像检查,你就能排列组合出各种方案:肺部检查、结肠检查、心脏扫描、骨质扫描、大脑扫描或是子宫、前列腺扫描等。大多数公司都充满诚意地强调它们将围绕客户需求调整定价结构,还真是客户至上啊!

这些诊所一般由执业医师所有并自主经营,还有些则仅仅是雇用医生工作,因为管控电离辐射(如X光检查)的规定要求医生必须在场。有了医生的背书,诊所就有了更强的合法性、权威性和规范性。这让你更加放心地把身家性命托付给它们,“自我照护”的赞歌仿佛也更悦耳动听了。最后,这还是让你舍得花费时间和金钱的好办法。

找一些论据去支持这些筛查是合情合理的想法。如果对于你来说,接受筛查比带着现金全速逃离这些诊所更有益健康,那么筛查才是有用的。

下面给大家讲讲我从H. 吉尔伯特·韦尔奇(H. Gilbert Welch)[6]那儿听来的关于加拿大前总理布莱恩·马尔罗尼(Brian Mulroney)的事。前者是著名的公共卫生专家和《我应做癌症筛查吗?也许不,原因在此》(Should I be Tested for Cancer? Maybe not and Here’s why)一书的作者。4

2005年,他去医院做例行体检。作为检查的一部分,他接受了螺旋CT扫描,结果检出两个体积不大却令人担忧的结节。他立即做了切除手术,却在术后罹患了胰腺炎——这是手术并发症。

马尔罗尼肺部的结节被成功切除了,可他却不得不住进了重症监护室。

在医院住了一个半月以后,他获准回家休养。一个月后他再次住院,随后接受了胰腺囊肿切除手术——这些囊肿是胰腺炎的并发症。接着,他又住了一个月的医院。唉!他甚至根本就没得肺癌,这只是个体检啊。5

马尔罗尼的检查结果是假阳性。他的医生以为他病入膏肓了——大概怀疑他罹患早期癌症,于是实施了针对性行动。可不管那些结节是不是癌症,接下来出现的并发症都得花工夫治疗了。马尔罗尼没能从筛查中获益——反而还受害了。人们知道类似的伤害有多普遍吗?并不。医生非常善于指出医疗干预的优点,但在认清危害方面就不那么在行了。

让我们再谈谈Prescan网站上的那个“长在肾脏上的2英寸大的肿瘤”。检查是有可能暴露潜在问题,但我们也不确定癌症是否会留下一些显而易见的线索——比如血尿一类的症状。我们不知道那个肿瘤是否会立即致害,但清楚地知道癌症并不总像我们想的那样发展。除非这样的筛查在投入使用前经过与其他医疗干预一样的准入试验,不然你很可能搞不清自己到底受益了还是受害了。这里混入了“领先时间偏倚”(lead-time bias,见下框)。[7]

领先时间偏倚

有个人在格拉斯哥登上一列开往伦敦的火车,而另一个人则在纽卡斯尔上车。列车在伦敦发生事故,他们双双罹难。

格拉斯哥的那位乘客在火车上存活了5小时,纽卡斯尔的那位则活了3小时。与之相似,在领先时间偏倚的作用下,更早发现某种疾病会带来这样一种错觉:在终点——即死亡时间——相同的前提下,更早发现的患者生存时间更长。

改编自迈克·鲍姆教授

那脑动脉瘤的故事又是什么情况呢?它听起来的确令人印象深刻。你可能也听说过,有一些人身体强壮,似乎能长命百岁,却由于脑动脉壁上的小栓块突然破裂,结果因脑溢血猝死。

从个案角度看,脑动脉瘤筛查似乎很完美。在致命或几乎致命的出血发生之前,你都无法察觉到脑动脉瘤。能够通过扫描确诊,意味着患者无须接受侵入性检查。而且正如世界卫生组织说的,脑动脉瘤还有得治。

这样简洁的推理近乎神话。

2010年,《新英格兰医学杂志》(NEJM,New England Journal of Medicine)刊载的一篇论文研究了健康人群接受大脑扫描的后续反应。扫描样本超过2000个:1.8%的被试者患有脑动脉瘤,罹患脑梗的——这将导致中风——有7.2%,还有1.6%的良性肿瘤。“正常”人这下全都“不正常”了,可真糟糕!

可他们真不正常吗?以上研究得出的结论是“诊所管理者亟须了解这些疾病的自然病程”。6太对了!多年来,医生只为有症状的人做检查:诸如中风、视线模糊、头痛眩晕等。借助头部扫描,他们能找到问题并作出诊断。可是给如此庞大的健康人群做扫描的工作还从未实施过。也许我们以为自己很健康,可只要去做个扫描,总能查出些什么。这就能宣告我们不正常了吗?

2010年,加拿大卫生技术评估服务中心(Health Technology Assessment Service)梳理了与脑动脉瘤筛查相关的全部证据。7结果证实,2%的健康人群的大脑中有动脉瘤,可他们对此一无所知——他们感觉良好,毫无症状。很显然,每年并没有多达2%的人发生脑动脉瘤破裂——实际数字在0.01%左右。8服务中心评估了现有证据后,认为推荐脑动脉瘤筛查的理由不够充分。它甚至还做了更进一步的工作。我们知道,有脑动脉瘤家族病史的人罹患该病的风险更高。那么向高危人群引进筛查不是件好事吗?答案也是否定的。中心发现:“对高危人群做颅内动脉瘤筛查没有显著价值。”

为什么会这样?处理未破裂的动脉瘤通常采用的方法是在栓块内部或周边放置夹子或线圈,以将其移除。手术通常借助一条穿过动脉的导管实施,导管则经由腹股沟放置。在脑血管内动手术可不能轻率决定。1998年,《新英格兰医学杂志》发表了一篇针对未破裂脑动脉瘤患者的追踪研究,并绘制图表,分别统计了搁置不管及手术治疗的患者状况。8从未出血且栓块较小的患者的未来发病率为0.05%,这意味着每2000人当中每年只有1人发病。研究发现,治疗能降低患者的动脉瘤发作风险,但治疗自身造成的风险比搁置还要高。结论称:“对于颅内动脉瘤尚未破裂,直径在10毫米以下,且无蛛网膜下腔出血病史的患者,手术治疗对瘫痪和死亡风险的降低效果并不确切。”即使面对更大的动脉瘤,该不该做手术也很难得出标准答案。让科研人员担心的是,手术对患者造成的伤害比搁置不管还要大。大概当治疗手段发展得更安全,或者成像检查能够辨识动脉瘤危险程度的时候,当前的风险对比将发生变化。就算到了那个时候,还有很多优缺点留待我们斟酌。

从这点看,Preventicum的那条点评也许可以有这样一个替代版本:“我做了个自己并不需要的检查,又接受了不那么保险能救我性命的治疗。毫无疑问,没有证据表明我花费几百镑所做的事情给我带来了益处。我的动脉瘤可能永远不会破裂,而我接受的治疗反而可能带给我更严重的伤害。最后这没发生,我倍感幸运。”

况且,因筛查和后续治疗遭受伤害的患者显然缺乏动力向他人介绍私人诊所的筛查服务,死亡的患者就更没机会了。他们甚至都不知道,自己所遭受的伤害完全可以避免。

市面上的筛查服务看起来完美无瑕,仿佛根本不用顾虑任何副作用。在Lifescan公司的广告图里,一对嬉戏中的夫妇充满活力地高高跃起,大呼“我们做过体检了!”Preventicum的网页则夸张地宣传它能提供“欧洲最先进和最安全的健康评估服务”。有哪怕一家公司的广告准确反映了筛查附带的未知风险、不确定性和问题吗?很不幸,一家也没有。证据依旧缺失。

更多不等于更好

不只成像扫描,还有的是花样提供给健康人群。保柏(BUPA)带来的“健康检查”包含从“核心版”到“进阶版”再到“完全版”的多个版本,还提供包括“乳腺健康”和“冠状动脉健康”在内的“无遗漏健康检查”。保柏的“完全版”体检还为50岁以上男性增加了“前列腺检查”,另有包括甲状腺疾病筛查和“痛风试验”在内的其他34个项目。9

保柏尽己所能列出了各种方案,还提供了对不同方案的检查耗时、咨询时长和项目数量的比较。

让我们来对它加以剖析。当你完全没有感到不舒服,做痛风试验有什么用?

保柏的这项试验实际上就是“尿酸”血液测试。尿酸是肌肉分解的副产品。我们从膳食中摄入蛋白质,当服用“水肿片”或利尿剂治疗高血压或排出体内多余水分时,尿酸就会升高。

出于这些原因,特定人群的尿酸水平本来就会轻微升高,但这不意味着他们患有痛风。当然不是——痛风这种古老的疾病中世纪就有了,病因是尿酸盐在人体关节内集聚结晶,进而造成红肿和疼痛。要确诊痛风,需要综合的临床判断,不是一次血液测试就够的。当一个人哭诉“我的脚趾红肿胀痛,那种酸痛感,连床单搭上去都让我苦不堪言”,我们才能确认他患了痛风。作出这一判断的是医生,他将检查患者的脚趾,并考虑痛风的可能。如果诊断仍不能确认,就得用针刺的方法取出关节内液,在显微镜下观察是否存在明显的尿酸盐结晶。而这段时间里,你血液中的尿酸水平可能完全正常

血尿酸水平无法用于检查痛风。那么,如果你的尿酸仅仅是偏高,脚趾并不疼痛,关节也很健康呢?这意味着你没有痛风,只是尿酸轻微上升罢了。这完全是两码事。

如果一个患者在症状上很像痛风,立即做尿酸测试很可能具有误导性,因为痛风急性发作患者的尿酸水平不会很高。甚至对于发作过一次的患者,我们也不会想当然地给他开降尿酸药物。这些药物长期服用才能见效,而且也有潜在副作用。

因此,尿酸测试对健康人群没有什么帮助。

更糟的还在后面。对于健康人群,一整套肝功检查(LFTs, Liver Function Tests)又有多大用处呢?这些检查的主要参考指标是肝酶水平,它们正常的时候,患者却可能面临肝功能衰竭或肝硬化。还有的人可能整日喝得酩酊大醉,所有指标却都显示正常。几年前,有项研究统计了罹患癌症并转移至肝脏的人群中肝功能异常的比例,结果显示其中有1/3完全正常。10

肝功检查的设计初衷可不是慰藉我们暴饮暴食的愧疚之心。如果你把酒精饮料当水喝,或整天吃垃圾食品,你的肝功检查结果或许还正常,可你就是在伤害身体。常规肝功检查说明不了什么,如果患者被怀疑患上肝炎或胆结石,那么好的,这时肝功检查可能有效。但是它们不是诊断试验——这意味着异常结果可能代表很多信息,从肝炎到扑热息痛服用过量,甚至某些跟肝脏一点关系都没有的病变。例如,当患者出现呕吐、发热和黄疸症状,你可能才会考虑急性肝炎的可能性。肝功检查是一个可供参考的因素,但不是唯一因素。

与血尿酸测试一样,肝功检查对健康人群的价值不够明确。它无法可靠地识别患者,也不能令健康人群确信他们的生活习惯足够健康。它们都不是好的筛查试验。

你要牢牢记住,筛查试验的用途是在某一不明疾病的病程早期发现并确诊它,以实施有效治疗。本应小心翼翼、深思熟虑设计出来的诊断程序,如今被加上一柄黑旋风手里的板斧——它太过简陋,以至于都不知道自己在测试些什么。

此外,我们对正常人的肝功读数了解得足够多吗?介于1%—9%的“正常人”都能查出“异常”结果。11

他们真的“异常”吗?关键问题是,对于生化检查及其他一些试验来说,“正常”的终点和“异常”的起点没有清晰的分界线。要评价化验室里得到的大部分数字是“正常”还是“异常”,需要用到正常参考值。但它是一个相对区间,是根据正常志愿者的典型指标汇总所得的数据。即便如此,显著误差也会存在。例如,一组采集结果可能仅包含年轻男性——没有女性、老年人,或缺乏族群多样性。12我们知道,老年人的生化检查结果超出年轻人的“正常”指标是十分普遍的事情。

当一项检查结果趋于异常,标准的判定方法就是简单计数。一般人的结果值总体上呈现“钟形曲线”(bell curve)——一种形似钟帽的图形。数值相对正常的人被挤在正中间,随着你从中间走向两边,人数就越来越少。在对“正常”的数学描述中,许多“正常”结果都可能偏离常见值,这是普遍共识。

其他影响因素同样存在。同一个人在一周的10个不同时段分别接受常规肝功检查项目,也不大可能得到完全相同的结果。此外,检查仪器也有误差,实验室使用的仪器即使对同一份血液样本也不总能返回完全相同的结果。

你要是还在苦心孤诣地寻找“正常”的普适标准,将发现这难如登天。既然我们连弄清楚“正常”的起点和终点都困难,又如何评判肝功检查是好是坏呢?

图1-1 “正常”值分布的钟形曲线

难道在接受一项检查之前,你不想清楚明白地了解自己将面对的是什么吗?你甚至希望看到一张来自保柏或其他体检公司的友情提示卡,告诉你作为体检项目的肝功检查并非一种明确有效的筛查。顾客们,如果你们已经被筛查的魔力迷惑了,那么就掏钱吧。但停下来想一想:作为顾客,你固然可以豪掷千金,可那换来的一切对你有什么好处?

基因与筛查

人类基因图谱的完成是一项历史性壮举,组成人类遗传密码的30亿个碱基对被完全破译了出来。当这一时刻到来时,你还记得自己身处何地吗?大概很难,我也是,但我知道这个爆炸性新闻发生在2003年。霎时间,仿佛肆虐人类的疾病将走向终结,足以改变医疗格局乃至人类命运的重大突破由此开始。

可目前为止,我们还没能看到这些伟大变革,兜售基因筛查项目的公司倒是贪婪地如约而至了。花费1000镑甚至更多钱做一套基因测序都显得稀松平常。典型的宣传网页长这样:标注着“赋能”(empowerment)字样,照片里清一色是体态轻盈、正在骑自行车的年轻姑娘,她们上方还写着“活到极致”一类的口号。

这些公司的产品一般用于检查基因里的“风险因素”。作为一名医生,我见过不少遗传病患者。遗传病是指经由单一或多个基因传递给下一代的疾病,如亨廷顿舞蹈症——一种导致运动障碍的病,还有囊肿性纤维化。而商业公司提供的基因筛查并未把重点放在这类疾病上,他们更关注遗传风险因素。

这场面有点似曾相识。我们似乎又毫无知觉地滑向另一个充斥着不可预知、不确定性和模糊不清的场域了。

让我们看看有着时髦小写商标的“genetichealth”公司提供的“女士高级基因筛查”套餐,它宣称能告诉你:

接受激素替代治疗的优势和劣势。一切结论都充分考虑了蕴藏于您基因中的健康信息与疾病隐患:包括乳腺癌、骨代谢、血栓、其他恶性肿瘤以及长期雌激素暴露等。

它进一步说:

参考上述动态信息,您的医生能够:

·为您量身定制疾病预防和卫生保健策略;

·为您选择最适合的个性化激素替代治疗或其他激素疗法,从而减轻副作用;

·您日常生活中一些微小的细节性变化可能显著影响您的健康和幸福,我们将特别为您关注。13

我快被惊掉下巴了,基因筛查能让你过得更幸福

让我们回顾一下,你能为上面任何一条说法找到依据吗?有哪项长期随机对照试验 [8](RCTs)得出过这样的结论:基因筛查能让人们的生活更幸福,减少甚至免于疾病和死亡的烦恼?

正如大家所了解的,包括乳腺癌、卵巢癌在内的一些妇科疾病可能与遗传因素有关,但实际上大约95%的乳腺癌并非如此。14NHS的遗传学诊所纷纷行动起来,鼓励家族内有遗传病风险的人接受筛查。做一次检查不可谓不轻松——但不该做得如此轻率。

随机对照试验(RCT)

患者和医生怎么知道哪种治疗或干预手段管用呢?这种疗法好吗?有效吗?患者的好转有没有可能与治疗无关,而是疾病自然发展的结果?

判断以上问题的黄金法则是安慰剂随机对照试验,它通常以“盲法”进行,不论是医生还是患者都不知道谁接受了何种干预。

然后观察各组患者的情况,他们的状况好转了,变糟了,还是没变化?治疗结果将被衡量并比较。

为何不立即做筛查?即便对于经证实携带卵巢癌或乳腺癌高风险基因的女性,早期筛查的有效频次也争议巨大。乳腺X光检查作为筛查项目也有很多缺点,最致命的是它很难辨认绝经前早期乳腺癌。超声检查的易错性也导致它很难派上用场。现在,对于乳腺癌风险较高或极高的女性,如BRCA或TP53基因突变人群,还有年度MRI项目可供选择。15然而这些手段是否奏效依然众说纷纭。16当癌症风险极高时,有的女性甚至会在乳腺健康的时候考虑切除手术。我们现已明确得知,卵巢癌风险水平一般的女性不会因筛查获益。17而对于高卵巢癌风险的女性,筛查目前也仅仅是作为临床诊断的一部分在应用,因为尚无明确证据显示它能有效降低卵巢癌造成的死亡风险。18

对于已知存在明确遗传问题的人群,这就是一道“是非题”——例如,BRCA基因指向乳腺癌风险,有异常就有风险。可商业筛查公司对一两个特定基因改变产生的遗传异常不感兴趣,它们感兴趣的是与血管病或其他疾病相联系的成组基因。这样的“基因筛查”不过是基于某组基因,得出一些你发生各种健康问题的风险或高或低的泛泛之论,你能借助这样的结论做些什么呢?为了降低疾病风险,你能拿出什么具体措施?

坦率地说,你压根不需要基因筛查告诉你怎样做才能降低过早死亡的风险,或延长高品质生活的年限。不论你的基因筛查量表显示你带有何种风险,你都有些别的正事可做。不论是什么昂贵的基因筛查,也都会在报告末尾向你揭示它们的黑暗秘密。这么厉害的秘方究竟是什么?

我这儿免费给你:不要吸烟;不要过量饮酒,也不要每天饮酒;不挑食,多吃水果和蔬菜;坚持日常锻炼,如果可以的话把它变成社交活动;有一份自己感兴趣的工作;在会见朋友和做事中收获乐趣;适当修饰自己的外貌;最后,不要陷入经济困顿。

这套说辞放之四海而皆准,可谓相当狡猾,却也正是我想告诉还没做过基因筛查的人们的。

细心的顾客就要问了,既然做不做基因筛查都能得到同样的建议,那基因筛查到底有什么好处?

还有些更细心的顾客会问,为同样的结果如此挥霍钱财的意义何在?以及别忘了,那些诊所并不愿意让你知道他们的服务其实毫无意义,那来自它们的建议会不会有害呢?

乔纳森·马戈利斯(Jonathan Margolis)在《金融时报》旗下的《如何消费》(How to Spend It)杂志增刊上讲述了自己的基因筛查故事,这是个很好的例子。他根据筛查结果总结说,自己的女儿们患乳腺癌的风险可能会轻微升高。“尽管我的两个女儿听到这个消息后不太开心,但至少庆幸自己得到了及时预警。”19

作为父亲,这可真是个好礼物。信不信由你,建议女性定期做乳腺筛查来防范乳腺癌死亡风险的效果甚至至今还没有找到证据(稍后我们将详细讨论这个问题)。同样,我们没有依据表明给年轻女性做筛查利大于弊。但我们真切地知道,长期处于焦虑或抑郁情绪一定会给人造成伤害。20得到这个消息后,父亲该怎么做呢?

我们能告诉你的,还是坚持锻炼、避免过度饮酒、控制体重、多吃水果和蔬菜,以及我们所知道的对身体有好处的一切做法……是的,恰恰与我们将要给你的建议完全一致。

如果有一位女士通过筛查发现自己的乳腺癌风险低于平均水平,那又如何?她能对自己的乳房肿块置之不理,认定那不大可能是癌症?她就可以仗着自己的基因优势暴饮暴食或吞云吐雾,认为这些对自己毫发无伤?这些行为不仅会把她的患病风险拉回平均水平,还将增加血管病或其他疾病的风险。

我们还得围绕筛查的危害与好处作深入的研究,现在它还远远没有完成。否则,就算基因筛查披着简便易行、反馈迅速、突破性技术等外衣,它仍然意义不大。

我们为什么需要证据

你一定看到过以“医学研究表明……”开头的新闻报道。唉!然而“医学研究”还包括一大团纠缠不清、混乱不堪的东西,它们有的因为样本量太小或设计不合理而一文不值,还有的连核心问题都没解释清楚。医学研究不是统统都可靠,这些事我稍后再讲。现在我要说的是,作为一名全科医生,我知道专科医生大都认为自己专业领域的重要性被低估了,经费也不足,也没有得到全科医生、患者和政客的充分认识。“专家意见”之所以被认为是各类证据当中最不可靠的一种,原因之一就在下面(参见图表)。21

图1-2 证据质量的层级

[1] 荟萃分析,又称“Meta分析”,是指对研究目的相同的多个独立研究加以系统评价和数据整合的分析方法,主要优点是避免了小规模临床试验结果的局限性,有利于针对特定研究目的得出更加可靠的结论。

[2] 队列研究,是对同一组人群的长期研究。它不是仅仅测试一种疗法,而是在长期时间范围内观察被试者。前瞻队列研究比回顾队列研究更可靠。

[3] 这种方法经常被用于研究罕见疾病。在研究中,一组被试者为疾病的患者,另一组被试者是其他方面与第一组相似的健康人群,研究将对比两组以寻找他们的差异——例如吸烟或化学品暴露。这类研究一般不包括药物或其他疗法的测试。

我们人类受困于自身经验的单一性,都是会犯错误的。如果有一位垂死的年轻肺癌患者的悲剧在我脑海挥之不去(事实上我真记得这样的病例),可能在接下来的几个月里,我面对症状类似、年纪相仿的患者都会高度紧张。如果我能做到理性思考,并以缜密逻辑和确切数据指导自己的工作,而不是在发现悲剧(尽管离我们十万八千里)可能重演时让自己的紧张情绪喷薄而出,那也许有助于我成长为一名更敏锐的医生。我知道肺癌在35岁以下的人群中非常罕见,可我忧虑的内心战胜了专业知识,要求我必须考虑肺癌的可能性。这样一来,如果我不坚持给自己的每一个决定找出科学证据,就可能给每一位患者开X光检查——典型的过度检查。

对于医学职业来说,证据的使用至关重要。在没有证据的情况下,我所做的一切都将是空中楼阁。医学证据的使用还没有被贯彻始终。例如1949年,美国有一条像这样的广告:

医护人员的闲暇时间虽然短暂,却也足够享受香烟的愉悦。他们清楚,吸上一口口感温和而美味的香烟是多么神清气爽,因此格外重视香烟品牌。在一次全国巡回调查中,来自全国各地的不同专业的医生被问到同一个问题:“医生,您吸什么牌子的香烟?”骆驼牌又一次成为被提及最多的品牌。22

广告上还画着一位正对着美丽的女护士吞云吐雾的帅气男医生。要知道,让医生们最终接受吸烟无法“保护你的喉咙免受刺激物以及咳嗽的困扰”23,并相信它带来的不过是口腔癌、咽喉癌和肺癌,都足足经过了数十年时间、多次大型研究和无数次恼人的争论。在香烟广告里上镜的医生甚至还挺高兴,因为他们单纯地相信自己的观点。

那么,像本杰明·斯伯克(Benjamin Spock)这样的名医就不会犯错了吗?作为享誉世界的儿科专家,他撰写的《婴儿及儿童护理常识》(Baby and Child Care)一书被翻译成39种语言,发行量超过5000万册——据称是“仅次于《圣经》的第二大畅销书”。24还有一个版本是专为“配合NHS”发行的。在1958年版中,他告诉读者:

婴儿以仰躺姿势睡觉有两大危害。如果孩子呕吐了,很容易因呕吐物造成窒息。此外,孩子总倾向于让脑袋转向同一侧——通常是向房间中心,这会令头部的一侧承压变平……我认为如果孩子愿意的话,从一开始让他习惯于俯卧是更好的。25

这一建议成了金科玉律,让婴儿趴着睡觉就是在做正确的事。直到1970年,有证据显示让婴儿这样睡觉增加了婴儿猝死综合征(SIDS,Sudden Infant Death Syndrome)的风险。没有人对证据给予足够的关注——因循守旧和明星“智者”的力量打败了一切。

到1991年英国政府全面发起“仰卧睡眠”运动,26劝说人们有证据表明不该让婴儿俯卧睡觉的时候,大量的伤害已经发生。位于伦敦的循证儿科中心所做的一项研究总结说,关于婴儿俯卧睡觉会增加猝死风险的证据早在1970年就已十分充分。要是自发现线索伊始,而不是20年之后才对这件事给予足够关注,许多婴儿就能免于夭折:

1970年以来,对婴儿猝死综合征的可预防风险因素的系统评价[9],本可以更早地引起人们对婴儿俯卧睡眠风险的警惕,进而避免超过10000名英国婴儿和至少50000名欧洲、美国和澳大利亚婴儿的死亡。27

这真的太吓人了。有些看上去又合逻辑又有效的东西也可能造成损害,我们必须接受这种可能性。

10年前,如果你不幸遭遇头部重创并被送进医院,医生可能会开一剂类固醇。原理很简单:头部创伤造成生命危险的原因往往是颅内水肿。也就是说,造成致命伤害的不是最初的头部创伤,而是会形成进一步伤害的水肿。

类固醇有非常出色的消肿效果,从关节到肠道和肺部,它对身体大多数部位都有不错的消肿作用。这么看,对严重头部创伤的患者动用类固醇来预防或治疗脑损伤非常合理,不是吗?

这样的操作延续了几十年,直到科学家和医生承认他们实际上也不清楚类固醇被用于头部创伤是好是坏。对此发出质疑需要巨大勇气:因为你挑战的不仅是自己,还有你和你的同事已经为患者提供过的照护方式。你以为有效的方法事实上给患者造成了伤害,你真的希望获悉这个事实吗?

“重型头部创伤后皮质类固醇激素随机试验”(CRASH trial)给这个重大的问题提供了答案。它从接受和未接受过类固醇治疗的严重头部创伤患者中随机选取样本。试验完成后,研究人员发现,类固醇不但没有效果,连无害都做不到。使用这类药物的患者将遭受进一步伤害,死亡风险更大。28经估算,如果这项试验能够更快完成,并叫停头部创伤场景下类固醇药物的使用,将有大约10000名患者免于死亡。29

为类固醇处方推波助澜的逻辑和善意远远不足以保障患者的安全,这是血的教训。

金字塔尖:为什么信任考克兰评价?[10]

与其他类型的医学报告相比,考克兰评价(Cochrane reviews)看上去可能相当古怪。它在表面上看起来无聊至极——浏览考克兰图书馆,你将看到成千上万篇评价、小结和文本资料。可是,这就是医学领域最强大的工具。为确保我们的发现真实可信,避免概率事件影响,我们最好不要依赖单一研究所得的结论——多次重复所得更可靠,这样做将帮我们尽可能降低结果的不确定性。考克兰评价绝非寻常的证据评价,坐在办公桌前随意找几篇文献所做的综述快评不在此列。

相反,考克兰评价的目标是提出一个清晰的问题。例如,什么是婴儿最安全的睡眠姿势?复合维生素有利于延长成年人的寿命吗?流感疫苗能否阻止肺炎的发生?乳腺筛查能减少死亡病例吗?

这些问题听上去可能既直截了当又索然无味,你或许以为它们早就被问过了。令人难过的是,最好的问题并不总是科研项目想要回应的问题,至于那些制药公司主导下的项目就更指望不上了。患者和一线医护人员呼唤研究的重点领域很难被落实。毕竟,以“最新”证据为基础开展研究更容易些——比研究图书馆地下室里那些沾满尘土的故纸堆容易多了。然而,质量更高的答案往往就在那里。

考克兰评价要求把一切证据考虑在内,不论时间新旧或地理远近。又来了,那听起来非常简单,不是吗:到底是什么原因令你不愿意了解全部的证据呢?真是让人扼腕!理想状态应该是这样的:患者、医生和科研人员携起手来,一起努力找出他们想知道的东西。科研人员把已知信息和瓶颈问题告诉我们,大家齐心协力解决相关问题。接着,科研人员分析数据,并把我们获得的新知识表达出来。最后,所有人再次行动起来,以落实成果。

这一科研模型简明易懂,极具诱惑力,但又太过标新立异以致难以实现——只能静待未来了。我们所知道的是,还有无数医学研究的宝藏从未有机会出现在世人面前。有些研究者抱怨在大牌刊物上发表东西实在是太难了,可最后呢,任何人都能在互联网上刊发任何东西了。

然而研究者没有利用好它,我们知道,有太多研究成果至今还在文件柜里吃灰。一些评估报告指出有1/3的研究都没能公开发表。30我们知道,制药公司掩盖它们不喜欢的研究简直是家常便饭[葛兰素史克(GlaxoSmithKline)是个可敬的例外,1995年它宣布,将公开本公司已上市产品的全部临床试验数据]。31, 32万络(罗非昔布)是全球畅销的抗炎药,在2004年因冠心病发作及中风风险被下架之前,据估计它已被开给了8000万人。2000年,《新英格兰医学杂志》曾刊发有利于万络的数据,5年后,它又发表了一篇关于这些数据的“热点聚焦”。据那篇“聚焦”显示,一些研究者早就知道有使用罗非昔布的患者冠心病发作的病例,却没有把这些情况写进公开报告。33

除非你掌握全部资料,否则你就对尚不了解的信息一无所知。这可能伤害患者,甚至危及他们的生命。

而撰写、审定考克兰评价的人员正应了那句话——“上穷碧落下黄泉,动手动脚找东西”。他们亲手检阅期刊,并致函据他们了解对相关领域有研究兴趣的学者,请求收信人提供他们可能收藏着的未公开成果。他们联系制药公司索取数据,不辞劳苦地实地考察。他们这样做,完全是为了得到最为全面、细致、公正的答案。诚然,总会有人对你掖着藏着:而他们看上去却好像已尽己所能。

这就是我信任考克兰评价的原因:他们可没有偷懒地只去寻找那些容易获得的资料,而是已经尽量去找全部资料了。

我们不能把医疗实践建立在观念的基础上,这是底线。证据压倒一切。医生不该仅仅因为主观相信就到处向人们宣扬吸烟具有清咽的功效,或指导人们让孩子趴着睡觉。医生应该做的是把观念放在一边,毫无偏见地检验和审视研究成果,不管那会抹杀多少骄傲。否则,我们就是在实施伤害——甚至带来死亡。