1.2 AI大模型的智慧涌现
AI大模型的智慧涌现像一个拥有超级智能的大脑的机器人,它可以自己学习,通过不断试错和调整来提高自己的能力。当这个机器人经过了大量的训练后,它就能够处理复杂的任务,比如识别图像、理解语言等。它可以通过学习海量的图片,来判断图片中的物体是什么;还可以通过学习大量的文字,来理解文章的意思;甚至可以通过学习文化背景、历史背景等一系列信息,来生成具有逻辑和情感的文本。之所以可以做到这些,是因为AI大模型的神经网络有数百万甚至数十亿个参数,它可以通过这些参数来处理和分析复杂的信息,并给出正确的答案。
1.2.1 横空出世的ChatGPT
ChatGPT是由OpenAI公司研发与创造的。OpenAI公司是由创业家Elon Musk、美国创业孵化器Y Combinator总裁Sam Altman、全球在线支付平台PayPal的联合创始人Peter Thiel等于2015年在旧金山创立的一家非营利的AI研究公司,得到多位硅谷重量级人物的资金支持,启动资金高达10亿美元[2]。OpenAI公司的创立目标是与其他机构合作进行AI方面的研究,并开放研究成果以促进AI技术的发展。
[2] 2015年1美元约合6.2元人民币。
ChatGPT的全称是“Chat Generative Pre-trained Transformer”,翻译成中文是“聊天生成式预训练变换器”。在ChatGPT出现之前,传统的人工智能、机器学习和聊天对话软件的功能主要局限于观察、分析和内容分类以及图像识别等。然而,以ChatGPT为代表的新型生成式AI实现了一项技术上的重大突破,它能够生成全新的内容,而不局限于分析现有的数据。ChatGPT的技术核心是生成式AI。GPT(Generative Pre-Training,生成型预训练)模型是一种自然语言处理(Natural Language Processing,NLP)模型,使用多层Transformer(变换器)来预测下一个单词的概率分布,通过训练基于大型文本语料库学习的语言模式来生成自然语言文本。GPT-1到GPT-4的智能化程度不断提升。
1. GPT-1的诞生
2018年6月,OpenAI公司首次公布了他们的研究成果:一篇名为“Improving Language Understanding by Generative Pre-Training”的论文。在这篇论文中,他们提出了一种全新的模型——GPT-1。它基于Transformer架构,使用大量的未标注文本数据进行训练,以学习语言语法、语义和上下文信息。该模型的出现为自然语言处理领域带来了新的突破,基于它能够生成自然、连贯的文本,可将其广泛应用于聊天机器人、智能客服、自动翻译等领域。
2. GPT-2的进步
2019年2月,OpenAI公司再次发布了一篇突破性的论文“Language Models are Unsupervised Multitask Learners”。在这篇论文中,他们推出了GPT-2。与GPT-1相比,GPT-2更进一步,它是一种自然语言生成模型,其目标在于生成与人类语言更为相似的文本,并具备了多任务处理能力。2019年7月,Microsoft公司向OpenAI公司注资10亿美元[3],并得到OpenAI技术的商业化授权,将OpenAI公司开发的产品与Microsoft公司开发的产品深度融合。GPT-2的出现为自然语言处理领域带来了新的突破,它不仅提高了生成文本的质量和连贯性,而且扩展了应用场景。例如,在智能客服领域,GPT-2可以帮助企业自动回答用户的问题和解决纠纷;在自动翻译领域,GPT-2可以实现多种语言之间的互译,促进国际交流和合作;此外,还可以将GPT-2用于文本摘要、语音识别等领域。
[3] 2019年1美元约合6.9元人民币。
3. GPT-3的飞跃
2020年5月,OpenAI公司再次突破自我,发布了论文“Language Models are Few-Shot Learners”。在这篇论文中,他们详细介绍了GPT-3。与GPT-2相比,GPT-3的应用场景、模型规模和性能表现都得到显著提升。GPT-3在生成方面表现出强大的天赋:它可以阅读摘要、聊天、续写内容、编故事,甚至可以生成假新闻、钓鱼邮件或在线进行角色扮演等。另外,它还支持许多其他的自然语言任务,如翻译、问答、语义搜索等。与前两个版本相比,GPT-3最大的不同在于它采用了更加复杂的架构和训练方法。GPT-3中的每个神经元都与上一层的所有神经元和下一层的所有神经元连接,这种连接方式使得模型可以更好地捕捉上下文信息。此外,GPT-3还采用了多任务学习的方式进行训练,使得模型可以同时处理多个不同的任务,从而提高模型的泛化能力。GPT-3的出现为自然语言处理领域带来了新的突破。基于它可以生成更加自然、连贯的文本,可将它用于更多的应用场景。例如,可以用于自动翻译任务,将一种语言的文本自动翻译成另一种语言的文本;还可以用于语音识别任务,将语音转换成文本;甚至可以用于文本生成任务,根据给定的主题或关键词生成一篇文章或一个故事。
4. GPT-3.5的新篇章
2022年11月,OpenAI公司又迈出了新的一步,发布了一个名为text-davinci-003(常被称为GPT-3.5)的模型。这个模型的特点在于,它以对话的方式进行交互,不仅可以回答问题,还可以承认自己的错误、质疑不正确的假设以及拒绝不恰当的请求。这一创新使得GPT-3.5在自然语言处理领域迈出了新的一步。两个月后,基于GPT的ChatGPT的全球活跃用户数量突破1亿。Microsoft公司将ChatGPT视为新一代技术革命,并将ChatGPT整合到Bing搜索引擎、Office全家桶、Azure云服务、Teams程序等产品中。
5. GPT-4:更大规模的预训练模型,开启多模态学习时代
GPT-4嵌入了人类反馈强化学习以及人工监督微调等更先进的技术,因而具备理解上下文、连贯性高等诸多先进特征,解锁了海量应用场景。在对话中,GPT-4会主动记忆先前的对话内容(上下文理解),并将这些内容用于辅助假设性的问题的回复,因而GPT-4可实现连续对话,从而提升交互模式下的用户体验。同时,GPT-4会屏蔽敏感信息,对于不能回答的内容也能给予相关建议。基于GPT-4的ChatGPT具备以下系统功能。
● 文本生成:能够生成符合语法和语义规则的文本,可以用于生成文章、评论、对话等。
● 聊天机器人:可以用作聊天机器人,与用户进行交流,回答用户的问题或提供相关信息。
● 语言问答:能够回答各种问题,包括事实性问题、知识性问题、推理性问题等。
● 语言翻译:可以将一种语言的文本自动翻译成另一种语言的文本,方便不同语言之间的交流。
● 自动文摘:可以根据输入的文本生成摘要或总结,方便用户快速了解文章或文档的内容。
● 绘画生成:可以根据用户的文字描述生成相应的绘画作品。
● 代码生成:可以根据用户的指令或代码提示生成相应的代码,方便程序员进行编程工作。
● 视频生成:可以将文本或语音转化为视频,方便用户进行视频制作和编辑。
2024年2月,OpenAI公司再度发布突破性成果,推出全新模型Sora。Sora模型具备将文本线索转化为时长可达1分钟的高清视频的能力,从而彰显人工智能在视频生成领域的重要进展。Sora模型能够生成包含多个角色、特定类型运动以及精确主题与背景细节的复杂视频。该模型不仅理解用户在文本线索中提出的要求,而且能将要求与现实世界中存在的方式相结合,呈现真实的视频效果。为展示Sora模型的强大功能,OpenAI公司在网站上分享了一段由该模型生成的视频。视频中,一对情侣在雪花纷飞的东京街头漫步,樱花花瓣与雪花共舞,营造出浪漫且唯美的氛围。该技术不仅展示了人工智能在理解和创造复杂视觉内容方面的先进能力,而且给内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。
6. ChatGPT生态:自动选择组合各种功能
ChatGPT借助插件可以连接第三方应用程序。这些插件使得ChatGPT能够与开发人员定义的API(Application Program Interface,应用程序接口)进行交互,自动选择组合各种功能,以完成相应任务。目前OpenAI公司提供的ChatGPT插件的典型应用如下。
● Web浏览器插件:ChatGPT会首先在互联网上搜索问题的相关信息,然后给出具体答案。添加该插件后,ChatGPT不仅会自己看网页,还能与网站互动。据OpenAI公司的相关介绍,现在其他服务(如体育比分、股票价格、新闻等)都成了ChatGPT的“眼睛和耳朵”。也就是说,借助Web浏览器插件,ChatGPT可以实时检索网上的最新消息,而不是受限于2021年9月之前的过时训练数据。
● 代码解释器:在一个沙盒和防火墙的执行环境中添加一个实时的Python代码解释器,“动嘴”编程,解决定量和定性的数学问题;进行数据分析和可视化;快速转换文件格式。
● 语义搜索:对个人和组织文件进行语义搜索。OpenAI公司开源了知识库检索插件的代码,允许用户托管他们自己的数据,并使其在ChatGPT内部可访问。使用这一插件可以从数据中获取最相关的文件片段,如文件、笔记、电子邮件或公共文档等。
总之,你可以通过插件,让ChatGPT成为完全个性化、可定制的私人助理或公司助理。
随着技术的不断发展,ChatGPT的发展空间不断拓宽。未来,OpenAI公司将继续对ChatGPT进行优化和升级,以提高其性能并扩展其应用场景。例如,他们可能会增加训练数据和模型参数数量;改进模型的架构和训练方法;引入新的技术手段来提高模型的泛化能力和可解释性等。此外,随着自然语言处理技术的不断发展,ChatGPT还将应用于更多的领域和场景中,例如,它可能会被应用于智能家居系统中,或者被应用于医疗领域、教育领域中,等等。未来,ChatGPT将为人类带来更多的便利和创新。
1.2.2 Google公司的PaLM-E
PaLM是Google公司发布的参数量达到5400亿的大模型,它能够执行常识推理、算术推理、文本解释、代码生成和翻译等任务。PaLM与思维链提示相结合时,在需要多个步骤推理的数据集上取得了显著的性能提升。之后Google公司给出了自己对标GPT-4的大模型PaLM 2。据介绍,他们用了大量数学和科学数据集对PaLM 2进行训练,相比2022年的PaLM模型,PaLM 2在多语言处理、推理和编码能力上有了很大的提升。根据官方测试,PaLM 2的部分结果(如数学方面的结果)比GPT-4的还要好。Google公司后来对PaLM 2进行算法优化,使得它在体积上比PaLM要小,且整体性能更好、计算效率更高。PaLM 2支持100多种不同的语言和20多种编程语言(包括JavaScript、Python、Prolog、Verilog、Fortran等),支持多模态的PaLM 2还能理解和生成音视频内容。
2023年3月,Google公司与德国柏林工业大学团队联手推出了PaLM-E。这一史上最大的视觉语言模型拥有高达5620亿的参数量(GPT-3的参数量为1750亿)。PaLM-E结合了PaLM-540B语言模型与ViT-22B视觉Transformer模型的优点,并因此而得名。这种结合赋予了PaLM-E强大的语言处理能力,同时使得它能从视觉数据中获取信息。
PaLM-E的一个重要特性是,它借鉴了Google公司之前在ViT-22B视觉Transformer模型上的研发经验,该模型已经接受过各种视觉任务(如图像分类、对象检测、语义分割和图像字幕等)的训练。PaLM-E的另一重要特性是,它能够将连续观察的图像信息或传感器数据编码为一系列与语言标记大小相同的向量。这一设计使得模型能以与处理语言相同的方式“理解”感官信息,从而允许更自主的机器人控制。将PaLM-E集成到控制回路中,可以避免任务执行期间发生中断。例如,在一个视频示例中,尽管研究人员从机器人手中拿走了薯片并移动了它们,但机器人仍能找到薯片并再次抓取它们。
在AGI(Artificial General Intelligence,通用人工智能)领域中,PaLM-E的发布无疑是一项重大突破。根据ChatGPT项目的主要负责人John Schulman的观点,未来几年内,AI将能够在大多数人类目前从事的工作上表现得比人类更好。
PaLM-E在实践中的表现令人印象深刻。它能够理解复杂的指令并生成行动计划,以便在没有人类干预的情况下执行任务。例如,给出一个高级指令“把抽屉里的薯片拿给我”,PaLM-E可以为具有手臂的移动机器人平台生成一个行动计划并让其执行。
此外,PaLM-E具有弹性,可以对环境做出反应。在另一个示例中,相同的PaLM-E可以通过具有复杂序列的任务自主控制机器人,这些任务以前需要在人工的指导下完成。Google公司的研究论文详细阐述了PaLM-E如何将指令转化为行动:“我们展示了PaLM-E在具有挑战性和多样化的移动操作任务上的性能。机器人需要根据人类的指令规划一系列导航和操纵动作。例如,给出指令‘我把饮料弄洒了,你能给我拿点东西来清理吗’,机器人需要规划一个包含‘1.找到海绵,2.捡起海绵,3.拿来,4.放下海绵’的序列给用户。受这些任务的启发,为了测试PaLM-E的具身推理能力,我们开发了3个用例,可供性预测、故障检测和长期规划。”
PaLM-E的推出标志着神经网络在机器人控制领域取得了新的进展。Google公司并不是唯一一个致力于使用神经网络进行机器人控制的研究公司。这项特殊的工作类似于Microsoft公司在论文“ChatGPT for Robotics: Design Principles and Model Abilities”中所做的工作,该论文提出了类似的将视觉数据和大模型结合起来进行机器人控制的方式。
除了在机器人技术领域的卓越表现以外,Google公司的研究者还发现了一个有趣的现象,这个现象明显源于PaLM-E所依赖的大模型。PaLM-E展示了正迁移能力,即将从一项任务中学到的知识迁移到另一项任务的能力。与单任务机器人模型相比,PaLM-E的性能明显更高。更大型的语言模型在视觉语言和机器人任务训练过程中能更好地保持其语言能力。研究发现,模型规模越大,其在视觉语言和机器人任务训练时保持语言能力的趋势越明显。PaLM-E-562B几乎完全保持了其语言能力。
Google公司的研究人员计划进一步探索PaLM-E在现实世界场景中的应用,如家庭自动化系统或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究热潮。现在,“多模态”这个词变得越来越流行,因为许多公司正在研发能够像人类一样执行一般任务的人工智能系统。PaLM-E的出现,不仅推动了机器人技术的发展,也为其他领域带来了新的可能性。例如,在智能家居领域,PaLM-E可以帮助家庭自动化系统更好地理解和执行,从简单的物品识别和分类到复杂的规划和决策的各种任务。
此外,PaLM-E的强大语言处理能力和视觉感知能力,使其在教育领域也有着广阔的应用前景。通过PaLM-E,学生们可以以更自然的方式与机器人进行交互,从而获得更丰富、更深入的学习体验。
随着ChatGPT的火爆和GPT-4的推出,越来越多的公司开始关注自然语言处理领域的大模型技术。我们可以预见,未来这一领域将会持续快速发展,并带来更多的创新和应用。
1.2.3 百度公司的文心一言
百度公司的文心一言是其基于文心大模型技术推出的生成式对话产品,该产品于2023年3月正式启动邀测。同年8月,文心一言向全社会全面开放。在随后的12个小时中,文心一言迅速登上Apple Store免费应用排行榜首位,成为首个登上应用排行榜榜首的中文AI原生应用。
百度公司的文心一言已逐渐发展到能够完成语言理解、语言生成和由文本生成图像等任务,并且它与ChatGPT等生成式AI技术相似。具体来说,文心一言主要具有以下功能。
● 语言理解。文心一言能够通过分析文本的语法结构和语义关系来理解用户的问题或需求,从而给出相应的回答或解决方案。
● 语言生成。文心一言能够根据用户的需求或要求,生成符合语法规则和语义逻辑的文本,如文章、评论、对话等。
● 由文本生成图像。文心一言能够将文本转化为图像或图形,从而帮助用户更好地理解和可视化相关数据或信息。例如,给出“帮我画深海里的古风女孩,侧脸美颜,甜美微笑”的提示,文心一言可以生成图1-2所示的图像。
图1-2 由文心一言生成的图像
● 自动翻译。文心一言能够自动翻译不同语言之间的文本或对话,从而帮助用户更好地了解不同文化背景下的信息和知识。
● 情感分析。文心一言能够分析文本中所表达的情感倾向和态度,从而帮助用户更好地了解相关话题的背景和情感氛围。
● 问答系统。文心一言能够根据用户的问题或需求,在内部知识库或互联网上搜索相关信息并给出相应的回答或解决方案。
● 智能客服。文心一言能够根据用户的需求或要求,提供相应的客服服务和解决方案,如自动回复、智能推荐等。
1.2.4 科大讯飞星火大模型
科大讯飞股份有限公司(以下简称“科大讯飞”)是我国领先的智能语音技术提供商,自成立以来一直致力于语音技术的研发和应用。
科大讯飞在2016年建立了深度学习平台。该平台为星火大模型的研发提供了强大的计算和数据处理能力。第一代星火大模型采用基于注意力机制的编码器和解码器结构,取得了较好的语音识别效果。在第一代星火大模型的基础上,科大讯飞不断对该模型进行优化和创新。随后科大讯飞推出第二代星火大模型。该模型采用更深的网络结构和更复杂的注意力机制,进一步提高了语音识别的准确率和健壮性。同时,科大讯飞也开始将星火大模型应用到更多的场景(如智能客服、语音转写、智能家居等)中。第三代星火大模型采用更深的网络结构、更大的模型尺寸和更高效的训练方法,进一步提升了语音识别的性能。同时,科大讯飞也开始将星火大模型应用到更多的自然语言处理任务(如机器翻译、文本分类、情感分析等)中。
科大讯飞的星火大模型是针对语音识别、语音合成和自然语言处理等任务开发的深度学习模型。星火大模型的主要功能如下。
● 语音识别。星火大模型可以将输入的语音信号转化为文字,实现准确、高效的语音转写。同时,科大讯飞针对不同的应用场景和语料库对模型进行优化,以提高模型的识别率和健壮性。
● 语音合成。星火大模型可以将输入的文字转化为自然流畅的语音,实现文本的朗读和语音合成。与传统的语音合成技术相比,星火大模型合成的语音更加自然、清晰,具有更好的音质和语感。
● 自然语言处理。星火大模型可以完成自然语言处理中的多种任务,如文本分类、情感分析、机器翻译等。通过训练模型,科大讯飞实现了对中文文本的自动分类和情感分析等功能,并取得了较好的效果。
● 声纹识别。星火大模型可以实现声纹识别功能,它能够通过对输入的语音信号进行特征提取和分析,实现对说话人身份的认证和识别。这一功能在金融、安全等领域具有广泛的应用前景。
● 语音唤醒。星火大模型可以实现基于语音的唤醒功能,它能够通过训练模型来识别特定的唤醒词或短语,实现对智能家居、车载娱乐等系统的控制和交互。
1.2.5 阿里云通义千问大模型
通义千问大模型是一款由阿里云开发的先进人工智能助手,其核心功能是提供精准、全面、人性化的语言理解和生成能力。通义千问大模型的设计理念旨在打破人机交互的界限,通过深度学习、自然语言处理、知识图谱等先进技术,实现与用户进行流畅、自然且富有洞察力的对话。
通义千问大模型的核心技术如下。
● Transformer架构:该模型采用先进的Transformer神经网络架构,通过自注意力机制实现对输入文本序列中各位置信息的全局建模,提升了理解和生成复杂语言内容的能力。
● 大规模预训练技术:利用海量互联网文本进行预训练,学习通用的语言表达,提高上下文理解能力。例如,通义千问大模型具有高达720亿的参数量,这使得其在各种自然语言任务上具备强大的泛化性能和更高的智能化水平。
● 多模态融合(可能包含此核心技术):该模型若支持多模态功能,则整合了视觉、语音等多元数据模态的信息,可实现跨模态的语义理解和生成。
● 持续优化与微调:经过不断迭代优化,针对特定任务或场景进行微调,以适应不同领域(如问答系统、对话交互、文档撰写、代码生成等)的需求。
通过这些核心技术的综合运用,通义千问大模型成为国内首批通过官方大模型标准评测,在通用性和智能性上达到高标准要求的模型,它还致力于打造开放的人工智能生态,赋能各行各业数字化转型和智能化升级。
通义千问大模型的应用场景如下。
● 客户服务。可以将通义千问大模型用于客户服务场景,提供24小时在线支持和解答。无论是在产品咨询、售后服务,还是在投诉处理、满意度调查方面,通义千问大模型都能够提供高效、专业的服务。
● 教育培训。可以将通义千问大模型用于教育培训场景,提供个性化、智能化的学习辅导。无论是在知识讲解、技能训练,还是在职业规划、心理疏导方面,通义千问大模型都能够提供丰富、多元的资源和支持。
● 媒体传播。可以将通义千问大模型用于媒体传播场景,提供自动化、定制化的内容生成。无论是在新闻报道、评论分析,还是在社交媒体运营、网络营销方面,通义千问大模型都能够提供快速、精准的产出并进行推广。
● 医疗健康。可以将通义千问大模型用于医疗健康场景,提供智能、专业的医疗咨询和健康管理服务。无论是在疾病诊断、治疗方案规划,还是在健康饮食、运动锻炼方面,通义千问大模型都能够提供科学、权威的建议和指导。