《架构师》2023年4月
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

特别专题|Topic

GPT-4重磅发布,吊打ChatGPT!编程能力牛到让我睡不着:10秒做出一个网站,1分钟开发一个游戏

作者 刘燕 核子可乐 Tina

王炸来袭,OpenAI联合创始人Sam Altman表示,GPT-4是“迄今为止功能最强大的语言模型”。与上一代相比,GPT-4更强大更可靠,且更有创造性。

GPT-4来了

OpenAI的新“核弹”来了。

3月14日晚间,OpenAI宣布发布多模态大模型GPT-4。

“我们创建了GPT-4,这是OpenAI努力扩展深度学习的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平”,OpenAI表示。

OpenAI联合创始人Sam Altman表示,它是“迄今为止功能最强大、最一致的模型”,能够使用图像和文本。

GPT-4的技术论文:https://cdn.openai.com/papers/gpt-4.pdf

GPT-4系统模型卡介绍:https://cdn.openai.com/papers/gpt-4-system-card.pdf

最近这几个月,ChatGPT的爆火,让人们惊叹于人工智能强大的聊天能力。GPT4出来后,可以看到,在聊天之外,人工智能的能力已不断扩展其外延。

ChatGPT用的语言模型是GPT-3.5。在谈到GPT-4比前一个版本强大在哪里时,OpenAI称,虽然这两个版本在随意的谈话中看起来很相似,但“当任务的复杂性达到足够的阈值时,差异就会出现”,GPT-4更可靠、更有创意,并且能够处理更细微的指令。该公司表示,GPT-4响应禁止内容请求的可能性比其前一个版本低82%。OpenAI表示,在内部评估中,GPT-4产生正确回应的可能性要比GPT-3.5高出40%。

而且GPT-4是多模态的,同时支持文本和图像输入功能。此外,GPT-4比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这也使得它的运行成本更高。

GPT-4在一系列基准测试中的表现优于GPT-3.5

OpenAI称它使用了微软Azure来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。

据悉,GPT-4参加了多种基准考试测试,包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高于88%的应试者。

GPT-4从图像生成食谱

OpenAI表示,已经与多家公司合作,要将GPT-4结合到他们的产品中,包括Duolingo、Stripe和Khan Academy。

GPT-4模型也将以API的形式,提供给付费版ChatGPT Plus的订阅用户,允许开发者付费将AI集成到他们的应用程序中。

微软表示,新款的必应(Bing)搜索引擎将运行于GPT-4系统之上。

在OpenAI宣布开发出GPT-4后,马斯克在推特上评论了这一消息,表达了他对人工智能对就业市场的潜在影响的担忧。马斯克在他的推文中写道:“我们人类还能做什么?我们最好继续使用Neuralink!(马斯克旗下脑机接口公司)!”

GPT-4:可生成更安全、更有用响应的OpenAI至高系统

据介绍,凭借更广泛的常识和问题解决能力,GPT-4能为用户提供更准确的回答。

GPT-4的创造性和协作能力超越以往各个版本

它能够生成、编辑并与用户一道完成创意和技术性创作任务,包括谱写歌曲、编写剧本或者学习用户的写作风格。

例如:

输入

用一句话解释《灰姑娘》的剧情,其中每个单词必须以字母表中从A到Z的下一个字母开头,不得重复字母。

输出

A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very won drously, xenial youth zealously.

GPT-4的高级推理能力已经超越ChatGPT

ChatGPT:

输入

Andrew从上午11点到下午3点有空,Joanne中午到下午2点有空,之后下午3:30到5点有空。Hannah中午有半小时空闲,之后下午4点到6点有空。如果Andrew、Hannah和Joanne要开个半小时的会,可以选择哪些时段?

输出

以下是空闲时段列表:

-Andrew:上午11点至下午3点-Joanne:中午至下午2点,以及下午3:30至5点;-Hannah:中午至12:30,以及下午4点至6点。据此计算,三人都空闲的时间窗口只有一个:下午4点至4:30。因此会议可以安排在下午4点。GPT-4:

输入

Andrew从上午11点到下午3点有空,Joanne中午到下午2点有空,之后下午3:30到5点有空。Hannah中午有半小时空闲,之后下午4点到6点有空。如果Andrew、Hannah和Joanne要开个半小时的会,可以选择哪些时段?

输出

Andrew:上午11点到下午3点;Joanne:中午12点至下午2点,下午3:30至5点;

Hannah:中午12点至12:30,下午4点至6点。

三人均有空的时段:中午12点至12:30。

GPT-4在测试中也获得了超过ChatGPT的考核成绩(百分比位次)

统一律师考试

ChatGPT:10%

GPT-4:90%

生物奥赛题

ChatGPT:31%

GPT-4(含视觉):99%

比GPT-3.5准确性提高40%

沿着对GPT、GPT-2和GPT-3的研究路径,OpenAI的深度学习方法利用更多数据和计算建立起愈发复杂且强大的语言模型。

OpenAI投入6个月时间,让GPT-4更安全、也更一致。在OpenAI的内部评估中,与GPT-3.5相比,GPT-4响应拒绝内容请求的几率降低了82%,生成可靠响应的几率提高40%。

安全与对齐

人工反馈训练

OpenAI引入了更多人工反馈,包括由ChatGPT用户提交的反馈,以改进GPT-4的行为。OpenAI还与50多位专家合作,在AI安全和保障等领域获得了早期反馈。

在实际应用中不断提升

OpenAI将以往模型在现实应用中的经验教训,引入了GPT-4的安全研究和监控系统当中。与ChatGPT一样,随着使用者越来越多,我们也将定期更新并改进GPT-4。

GPT-4辅助的安全研究

GPT-4的高级推理和指令遵循能力加快了特准的安全工作。OpenAI使用GPT-4辅助创建用于模型微调的训练数据,并在训练、评估和监控流程中对分类器进行迭代。

编程能力牛到让我睡不着

在GPT4的发布会上,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4拥有的强大编程技能,有一段两分钟的精华,演示的内容是:

1.在草稿本上用纸笔画出一个非常粗糙的草图;

2.拍照告诉GPT-4我们要做一个网站,效果就是图中这样,让GPT-4生成网站代码;

3.GPT-4自己实现一个网站,总共历时十秒钟左右。

这效果给当下不少开发者带来了压力以及非常强烈的职业危机感,有人当即表示“睡不着了”:“辗转反侧了一个晚上,思考未来5-10年我们到底会在哪里。”

虽然GPT-4用Leetcode测试结果来表示自己还没有准备好替代程序员,但是不少人试验了用GPT-4来开发游戏以及编程。

Pietro Schirano从事AI设计,以前是Uber、Facebook的产品设计师,他尝试了用GPT-4来开发游戏:“GPT-4是一项令人难以置信的变革性技术。我花了不到60秒的时间,重新创建了乒乓球游戏。这还仅仅是我的第一次尝试。这个世界开始变得不一样了。”

另一位表示自己对JavaScript完全不了解的设计师Ammaar Reshi,使用Chat GPT-4和在线集成开发环境,在20分钟内编写和调试了一整个的贪食蛇游戏。

根据他的讲述,他首先要求GPT-4提供贪吃蛇游戏的代码,以及运行该游戏所需的相关HTML、CSS和JavaScript,以足够让他启动项目。虽然GPT-4无法在一次回复中完成所有操作,但Ammaar Reshi只需要不停回复“继续”即可。

获得游戏所需的所有代码后,Ammaar Reshi创建了一个Replit在线集成开发环境帐户,并开启了一个新HTML、CSS、JS项目。然后,他将代码粘贴到开发环境的相关文件中,点击运行,游戏就能基本按预期工作了!最开始的时候,生成出来的蛇在第一次咬人后会死掉而不是长大,并且它一直以2而不是1的增量增加分数。所以Ammaar Reshi要求GPT-4进行调整,让人吃惊的是,GPT-4再次做到了!

以上这些设计师还是编程外行,那么程序员们用GPT-4进行了哪些尝试呢?

Sualeh Asif是一位专业人士,他的公司正在创建一个利用GPT-4强大功能的AI代码编辑器,希望将来能作为VS Code的直接替代品。他表示在帮助OpenAI进行部分测试之后,有一件事对他来说很突出:GPT-4在编码方面非常出色!

Sualeh Asif表示他们在公司内部使用GPT-4已经几个月了,积累了很多例子,所以他在GitHub上给出了一些代码展示。

这些示例足够说明GPT-4处理Bazel、Kube、Terraform和Rust的能力。

其中,GPT-4能将Python函数转换为深奥但正确的C++代码;可以处理Bazel的复杂性,帮助我们以10倍的速度编写Bazel代码;能将Kube部署转换为使用Terraform;还能为常见和深奥的任务编写CLI……

GPT-4带来职业危机?

ChatGPT的推出在科技界引发了一场狂潮,而GPT-4展现出的能力则更让人担忧。

如果不论别的职业,单就软件工程师岗位来说,不少开发者已经开始担心在未来的几十年内,AI会循序渐进地取代一些开发岗位。

有网友说道:“我一直希望自己能成为一名软件工程师,作为一名年轻人,我有些害怕。”

有人回应说,很多人认为GPT-4在代码方面非常出色,并且担心他们会失业,但“GPT-4能参加充满废话的会议吗?能帮我拍经理的马屁吗?能奉承管理层说他们的想法很好吗?它们还不行,所以我想我的工作现在是安全的。”

GPT-4再次给我们敲响了警钟:拥有如此强大的编程能力,AI真的会取代程序员?前段时间,前哈佛大学计算机科学教授、谷歌工程主管Matt Welsh还曾对此发出断言,表示“生成式AI将在3年内终结编程”,放在当下来看,也许Welsh所言非虚。

Welsh认为,由于ChatGPT和Copilot等技术的出现,编程正处于从人类工作转变为机器人工作的转折点。在他看来,程序员需要演变成AI程序的“老师”——或者产品经理,或者代码评审人员。他认为这两个人类角色相对来说不那么受机器人的影响。“不要指望你的程序员职业生涯会一直持续下去,因为机器正在取代这个角色。”Welsh说道。

他认为,具有编程能力的人类将承担“评审和阅读AI生成的代码,并确保它们能够正常运行以及做正确的事情”的任务。至于程序员,以及那些即将加入这一领域的人,他们将需要成为AI的老师,而不是程序员本身。Welsh说:“这是关于如何教会AI写代码,而不是自己写。”

也许我们正处于一个动荡的周期之中,现在的问题不是会不会被取代,而是AI将在多大程度上改变软件行业,而我们也需要为未来做好准备:现在就必须习惯人工智能,毕竟让AI帮助我们编程就在不远的未来。

参考链接

https://github.com/anysphere/gpt-4-for-code

https://openai.com/research/gpt-4

https://www.infoq.cn/news/qR0xQrafpDi92bTPal6t

https://www.infoq.cn/article/eGbSZBSKWEDxspQq8FLh

https://openai.com/product/gpt-4

https://www.youtube.com/watch?v=outcGtbnMuQ