1.4 ChatGPT如何影响医疗?
从2022年底到2023年,聊天机器人程序ChatGPT火遍全网。推出才两个月时,ChatGPT月活跃用户数就已经突破1亿,成为互联网历史上用户数增长最快的消费应用。而当初,抖音海外版TikTok在全球发布后,花了大约9个月的时间才达到这个成绩。作为人工智能领域的“顶流”产品。ChatGPT的出现进一步加速了人工智能在医疗领域的落地,并展现出令人兴奋的应用前景。
1.4.1 ChatGPT是个啥?
ChatGPT是OpenAI发布的最新一代的AI语言模型,是自然语言处理(Natural Language Processing,NLP)中一项引人瞩目的进展。这个当今最火爆的AI语言模型,与过去那些智能语音助手的回答模式有很大的不同,ChatGPT出人意料地聪明。与当前的一些人工智能客服相比,ChatGPT真正走向了人工智能,有了我们期待的模样。很多人形容它是一个真正的“六边形战士”——不仅能聊天、搜索、做翻译,还能撰写诗词、论文、代码,甚至能开发小游戏、参加考试、干科研、当医生等。外媒评论称,ChatGPT会成为科技行业的下一个颠覆者。
GPT的英文全称为Generative Pre-trained Transformer(生成式预训练转换器),是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。ChatGPT“脱胎”于OpenAI在2020年发布的GPT-3。
GPT-3刚问世时,也曾引起相似的轰动。当时,GPT-3也展示出了答题、翻译、写文章,甚至数学计算和编写代码等多种能力。由GPT-3所写的文章几乎达到了以假乱真的地步。GPT-3被认为是当时最强大的语言模型,甚至在当时有网友评价GPT-3“无所不能”。
但现在,ChatGPT所表现出来的能力比GPT-3还要强大,可以说是智商、情商都在线。ChatGPT不仅能进行天马行空的长对话,可以回答问题,还能根据人们的要求撰写各种书面材料,如商业计划书、广告宣传材料、诗歌、笑话、计算机代码和电影剧本等,甚至还可以进行化学用品的模拟研发。简单来说,就是ChatGPT具备了类人的逻辑、思考与沟通的能力,并且它的沟通能力在一些领域表现得相当惊人。
文学创作对ChatGPT而言,更是不在话下。例如,给ChatGPT一个主题,它就可以写出小说框架。我们让ChatGPT以“AI改变世界”为主题写一个小说框架,ChatGPT就能清晰地给出故事背景、主要角色、故事情节和结局。若觉得小说框架还不够完整,则可对ChatGPT进行适当提醒,ChatGPT就能在“调教”之下,继续回答,补充完整。ChatGPT已经具备了一定的记忆能力,能够进行连续对话。有用户体验之后评价称,“ChatGPT的语言组织能力、文本水平、逻辑能力,可以说已经令人惊艳了”。甚至已经有用户打算把日报、周报、总结这些文字工作,交给ChatGPT来辅助完成了。
普通的文本创作,只是最基本的。ChatGPT还能给程序员的代码找Bug(Bug指的是计算机程序中出现的错误,也可以称为缺陷、故障或漏洞)。一些开发者在试用中表示,ChatGPT针对他们的技术问题提供了非常详细的解决方案,比一些搜索软件的回答还要靠谱。美国代码托管平台Replit的首席执行官Amjad Masad在推特上发文称,ChatGPT是一个优秀的“调试伙伴”,“它不仅解释了错误,而且能够修复错误,并解释修复方法”。
ChatGPT还敢于质疑不正确的前提和假设,主动承认错误,主动拒绝一些无法回答的问题和不合理的问题,提升了对用户意图的理解,提高了答题结果的准确性。
在医学领域,美国《科学公共图书馆·数字健康》杂志在2023年2月9日刊载论文称,ChatGPT在没有经过专门训练或加强学习的情况下就能通过或接近通过美国执业医师资格考试(United States Medical Licensing Examination,USMLE)。此外,ChatGPT还在考试中表现出高度的一致性和洞察力。这些结果表明,基于大语言模型的人工智能技术,可能有辅助医学教育,甚至临床诊疗、决策的潜力。
1.4.2 比ChatGPT更强大的版本
ChatGPT的强悍已经让人们足够震惊,而ChatGPT的下一代——GPT-4则让人们进一步感受到,人工智能带来的颠覆或许真的要来了。
事实上,ChatGPT其实只是OpenAI匆忙推出的测试品。据美国媒体报道,2022年11月中旬,OpenAI员工被要求快速上线一款聊天机器人。一位高管称,该聊天机器人将被称为“Chat with GPT-3.5”,两周后将免费向公众开放。这与原本安排不符。近两年,OpenAI一直在开发名为“GPT-4”的更强大语言模型,并计划于2023年发布。2022年,GPT-4还在进行内部测试和微调,做好上线前准备。但OpenAI的高管改变了主意。由于担心竞争对手可能会在GPT-4之前抢先发布自己的AI聊天机器人超越他们,因此,OpenAI拿出了2020年推出的旧语言模型GPT-3的强化版本GPT-3.5,在此基础上进行了微调。这才有了新款聊天机器人ChatGPT的诞生。
与ChatGPT的匆忙发布不同,GPT-4是有所准备的结果。根据网传的消息,GPT-4早在2022年8月就训练完成了。之所以到2023年3月才面市,是OpenAI需要花6个月的时间让它变得更安全。而图像识别、高级推理、强大的文本处理能力,是GPT-4的三大特点。
(1)就图像识别功能来说,GPT-4可以分析图像并提供相关信息。例如,它可以根据食材照片来推荐食谱,为图片生成图像描述和图注等。但是,出于对潜在滥用的担忧,OpenAI推迟了图像描述功能的发布。也就是说,GPT-4的图像输入功能还处于尚未公开的预览阶段,目前仅能在OpenAI的直播中观看效果。
(2)就高级推理功能来说,GPT-4能够针对3个人的不同情况做出一个会议的时间安排,回答存在上下文关联性的复杂问题。GPT-4甚至可以讲出一些质量不怎么样、模式化的冷笑话。虽然并不好笑,但至少,它已经开始理解“幽默”这一人类特质了。要知道,AI的推理能力,正是AI向人类思维慢慢进化的标志。
(3)就文本处理能力来说,GPT-4能够处理超过2.5万个单词的文本。GPT-4在文本处理能力上是ChatGPT的8倍,并可以用所有流行的编程语言写代码。其实,在随意谈话中,ChatGPT和GPT-4之间的区别是很细微的。但是,当任务的复杂性达到足够的阈值时,差异就出现了,GPT-4比ChatGPT更可靠,更有创意,并且能够处理更细微的指令。
GPT-4还能以高分通过各种标准化考试:GPT-4在模拟律师考试中的成绩超出90%的人类考生,在俗称“美国高考”的SAT(Scholastic Aptitude Test)阅读考试中超出93%的人类考生,在SAT数学考试中超出89%的人类考生。而同样面对律师资格考试,ChatGPT背后的GPT-3.5排名在倒数10%左右,而GPT-4考到了前10%左右。
1.4.3 GPT-4意味着什么?
自人工智能诞生以来,科学家们就在努力实现通用AI。而所谓的通用AI,其实就是指应对多种甚至泛化问题的人工智能技术。通用AI将拥有在事务中推理、计划、解决问题、抽象思考、理解复杂思想、快速学习和从经验中学习的能力,能够像人类一样轻松地完成所有这些事情。ChatGPT和GPT-4的成功证明了大模型路线的有效性,这直接打开了通用AI发展的大门,让AI终于完成了从0到1的突破,开启了真正的AI时代。
ChatGPT和GPT-4的成功,根本原因其实是技术路线的成功。在OpenAI的GPT模型之前,人们在进行自然语言处理时,都用的是循环神经网络(Recurrent Neural Network,RNN),然后再加入注意力机制(Attention Mechanism)。所谓注意力机制,就是想将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分。例如,当我们要让AI识别一张动物图片时,最重要该关注的地方就是图片中动物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而不用太关注背景的一些信息。注意力机制核心的目的就在于希望机器能在很多的信息中注意到对当前任务更关键的信息,而对于其他的非关键信息就不需要太多的注意力侧重。换言之,注意力机制让AI拥有了理解的能力。
但RNN+Attention会让整个模型的处理速度变得非常慢,因为RNN是一个词一个词处理的。所以,才有了2017年谷歌大脑团队的那篇名为“Attention Is All You Need”(《自我注意力是你所需要的全部》)的论文的诞生。简单来说,这篇论文的核心就是“不要RNN,只要Attention”。而这个没有RNN只有Attention的自然语言模型就是Transformer,也就是今天ChatGPT能够成功的技术基础。这个只有Attention的Transformer模型不再是一个词一个词的处理,而是一个序列一个序列的处理,可以并行计算,所以计算速度大大加快,一下子让训练大模型、超大模型、巨大模型、超巨大模型成为可能。
于是,OpenAI在一年之内开发出了第一代GPT,第一代GPT在当时已经是前所未有的巨大语言模型,具有1.17亿个参数。而GPT的目标只有一个,就是预测下一个单词。如果说过去的AI是遮盖句子中的一个词,让AI根据上下文“猜出”那个词,进行完形填空,那么GPT要做的,就是要“猜出”后面一堆的词,甚至形成一篇通顺的文章。事实证明,基于Transformer模型和庞大的数据集,GPT做到了。
特别值得一提的是,在GPT诞生的同期,还有另一种更火的语言模型,那就是BERT。BERT是谷歌基于Transformer模型做的语言模型。BERT是一种双向的语言模型,通过预测屏蔽子词——先将句子中的部分子词屏蔽,再令模型去预测被屏蔽的子词——进行训练,这种训练方式在语句级的语义分析中取得了极好的效果。BERT模型还使用了一种特别的训练方式——先预训练,再微调。这种方式可以使一个模型适用于多个应用场景。这使得BERT模型刷新了11项NLP任务处理的纪录。在当时,BERT直接改变了自然语言理解(Natural Language Understanding,NLU)这个领域,引起了多数AI研究者的跟随。
面对BERT的大火,GPT的开发者们依然选择了坚持做生成式模型,而不是去做理解。于是,就有了后来大火的GPT-3、ChatGPT和GPT-4。
从GPT-1到GPT-4,OpenAI做了两年多时间,用大力出奇迹的办法证明了大模型的可行性,参数从1.17亿个飙升至1.8万亿个甚至更多,也似乎证明了参数越多,AI能力越强。
在这样的模型下,开放端口给专业领域的组织合作,以GPT-4的学习能力,再结合参数与模型的优化,将很快在一些专业领域成为专家级水平。
人类发展到今天,已经从世界历史中吸收了大量数据,这些数据以不可估量的方式改变了人类大脑中的神经连接。就像我们人类的思考和学习一样,人工智能研究的大语言模型也能够做类似的事情,并有效地引导它们自己的智能。
当GPT-4广泛地开放给大众使用后,数以亿计的人涌入与GPT-4进行互动,GPT-4就将获得庞大又宝贵的数据。于是,凭借着比人类更为强大的学习能力,GPT-4的学习与进化速度正在超越我们的想象。未来,借助各种国际科研期刊与科研资料,AI就能基于这些前沿研究来为科学家的科研提供分析、建议、模型、推演,甚至可以进行模拟科研的推演。
而一旦我们将人类社会所沉淀的医疗数据信息开发给GPT进行训练,基于GPT的人工智能医生在常规与标准化的诊疗方面超越我们人类医生,将是指日可待的事情。
1.4.4 ChatGPT进军医疗
ChatGPT是Transformer、基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)和GPT等相关技术发展的集大成者。它可以被理解为NLP领域的结晶,也可以被理解为通过深度学习,进而理解文本,同时生成类似于人类所创造文本的人工智能模型。ChatGPT强悍的性能令世界震惊,在ChatGPT的热潮席卷各行各业之时,它也来到了医疗行业。
例如,美国执业医师资格考试以难度大著称,而美国研究人员测试后却发现,聊天机器人ChatGPT无须经过专门训练或加强学习就能通过或接近通过这一考试。参与这项研究的研究人员主要来自美国医疗保健初创企业安西布尔健康公司(AnsibleHealth)。他们在美国《科学公共图书馆·数字健康》杂志刊载的论文中说,他们从美国执业医师资格考试官网2022年6月发布的376个考题中筛除基于图像的问题,让ChatGPT回答剩余的350道题。这些题类型多样,既有要求考生依据已有信息给患者下诊断这样的开放式问题,也有诸如判断病因之类的选择题。两名评审人员负责阅卷打分。结果显示,在3个考试部分,去除模糊不清的回答后,ChatGPT得分率在52.4%至75%之间。而得分率在60%左右即可视为通过考试。其中,ChatGPT有88.9%的主观回答包括“至少一个重要的见解”,即见解较新颖、临床上有效果且并非人人能看出来。研究人员认为,“在这个出了名难考的专业考试中达到及格分数,且在没有任何人为强化(训练)的前提下做到这一点”,这是人工智能在临床医学应用方面“值得注意的一件大事”,显示“大语言模型可能有辅助医学教育,甚至临床决策的潜力”。
除通过医考外,ChatGPT的问诊水平也得到了业界的肯定。《美国医学会杂志》(The Journal of the American Medical Association,JAMA)发表研究性简报,针对以ChatGPT为代表的在线对话人工智能模型在脑血管疾病预防建议方面的使用合理性进行探讨,表示ChatGPT具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本。
过程中,根据现行指南对脑血管疾病三级预防保健建议和临床医生治疗经验,研究人员设立了25个具体问题,涉及疾病预防概念、风险因素咨询、检查结果和用药咨询等。针对每个问题均向ChatGPT提问3次,记录每次的回答内容。每个问题的3次回答都由1名评审员进行评定,评定结果分为“合理”、“不合理”或“不靠谱”。3次回答中只要有1次回答有明显的医学错误,可直接评定为“不合理”。结果显示,ChatGPT回答的合理概率为84%(21/25)。仅从这25个问题的回答来看,在线对话人工智能模型回答脑血管疾病预防问题的结果较好,具有辅助临床工作的潜力。
显然,ChatGPT与其他人工智能工具不同。事实上,它很像医生解决问题的方式:从一个大型数据库开始(对医生来说,数据来自课堂、已经发表的研究和专业经验;对ChatGPT来说,数据是数字出版材料的总和),医生会回忆或查找符合病人症状的相关信息,ChatGPT则使用大量参数来精确定位合适的文本。
当然,ChatGPT在医疗场景中的应用远不止于此。GPT是一项极具韧性的技术,它本身可以有非常多的应用,只要稍经改动便可以迁移到其他领域,同时产生良好的结果。尽管当前ChatGPT主要应用于文本对话领域,但未来融合语音、文本、图像信号的多模态交互技术可能会成为未来行业研究的热点方向。全球最快的图像生成应用Stable Diffusion便是一个成功的应用案例。Stable Diffusion可以通过文字描述生成图片,实现1秒出图。如果在医学影像AI上能够应用类GPT技术,通过建立起文本与图像之间的联系,反过来将图像上的关键信息转换为准确的文字信息,那么或许能进一步提升医生检测效率和检测能力。
从医学教育的过程来看,医学生和住院医生是通过结合教科书、期刊论文、课堂指导和观察熟练的临床医生来学习医疗技能的。而以ChatGPT为代表的AI大模型也能够遵循同样的方法。一旦ChatGPT连接到床边的病人监护系统,就可以访问实验室数据并听到医患之间的互动,该应用程序将开始预测最佳的一系列临床步骤。每次ChatGPT将这些决定与电子健康记录中的临床记录和主治医生的指令进行比较时,它都会学习和改进。大一的医学生需要经过十年以上时间的教育和培训才能技术娴熟。未来几代的ChatGPT将在几个月或更短的时间内完成这一过程。随着时间的推移,ChatGPT将不断改进并解决越来越复杂的医疗问题。