上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

第7章这究竟会训练出个什么玩意儿？

“ChatGPT你知道吧？‘言心’也是一个语言模型，跟ChatGPT的差别就是，相比之下，‘言心’更擅长中文语料。”

这个话题一旦展开，是怎么也绕不过去现今大火的聊天机器人ChatGPT的，ChatGPT推出2个月即拥有1亿月活用户，在消费者应用程序里，它是历史上最快达到这个数字的。

如今，它就是聊天机器人的标杆产品，火的一塌糊涂。

“ChatGPT的三代模型的核心架构都是Transformer，从本质上讲，它依然是基于海量数据的延伸，并没有新的颠覆性技术，也没有从本质上超出现有的技术。”

说起ChatGPT，程旭对此很不以为然——现阶段，人工智能的理论并没有新的进展，谁强并不是强在理论先进、技术高超上，而是强在硬件实力、强在算力堆积上。

换句话说，就是钱——就拿ChatGPT来说，它训练一次几乎就差不多需要三千万人民币以上的资金。

更别说每年的运营，据估算，每年仅是CPU和GPU的成本就能达到十亿人民币这个级别，再加上其他的费用，这真的不是一般企业能够承受的住的。

哪怕是千寻这样的巨头搜索企业，搞出“言心”这个语言模型，也是持续投入了十年以上，每年的投入几乎是整个千寻科技利润的五分之一——这绝对是一个惊人的数字。

“但微软是真的舍得投钱啊，十亿美金十亿美金的，钱跟不是钱似的往里投资。”

说着的时候，潘正甚是羡慕：“他们甚至给OpenAi团队配了一台性能极为强悍的超算，看着就让人眼红。”

“千寻科技的投入也不差吧？而且以后肯定还会越来越重视。毕竟现在GPT已经开始集成到bing搜索引擎，未来肯定是要发力的。

“而搜索引擎，这可是千寻科技的核心业务、甚至可以说是根基所在。bing未来在国内肯定是要跟千寻搜索直接竞争的，千寻也绝对不会无动于衷的！”

要说ChatGPT这种极为强悍的聊天机器人出现对谁的影响最大？

那当然是搜索业务，它对搜索引擎的影响简直就是颠覆性的。

相比于传统的搜索引擎来说，拥有极致的语言处理技术和语言理解能力的ChatGPT简直太超前了！

它与用户直接对话，用类似于人与人交互的方式进行搜索，而不是传统的关键词匹配。

这种搜索得出的结果更加直接、快捷，也更加容易使用，甚至直接放到论文里都没问题，查重都查不出来。

更有甚者，程序员给它描述需求，它能直接生成可用的代码——它对语言的理解能力已臻于化境！

而这对于千寻搜索来说，肯定不是什么好消息。

而“言心”模型，程旭印象中，“言心”好像是确实出了什么问题，好像还闹挺大的。

原本说是三月上线，三月是上线了，不过更多的是偏向于于商业合作伙伴，比如各类媒体、地图、房产等大型的合作伙伴——提供智能化的检索服务。

对个人的开放一开始就有所限制，初期好像就没开，印象中搞了一个什么邀请测试方案。

后来才关注到，好像是模型的训练出了什么问题，但这其中究竟发生了什么，程旭也没有过多的关心。

“千寻确实花了不少钱，投资也数十上百亿了。”

潘正没有否认程旭的说法，这些东西都已经是公开可求证的了，不过，随后他便微微摇了摇头：“但是现在有点儿，坏了！”

“坏了？”

程旭有些不解，坏了是个什么概念？有这个术语吗？

“难道是寒武纪受到限制，训练卡和推理卡都不能及时供应的原因？”程旭有些不解，这是有些影响，但按理说，这还影响不到当前的上限。

“也不是什么机密，稍微消息灵通点儿的人一打听都知道。”

潘正无奈道：“不是硬件的问题，寒武纪的问题影响暂时确实没有那么大，是‘言心’基础模型的问题。”

程旭更加不解了，基础模型能有什么问题？

都训练那么长时间了，数十上百亿的资金都投入进去了，基础模型有问题都没发现吗？

“这算是早期的一个小失误，”潘正解释道：“原本不是什么大问题，但现在确实不好解决了。”

程旭没有吭声，等着潘正的下文，他是越听越糊涂了。

“早期训练的时候，训练人员也没想那么多，那个时候也没有什么严苛的标准，就使用了自己的产品做语料……”

“自家的产品？”程旭眼睛猛地一跳，瞬间就想起来发生了什么事儿了——千寻自家的产品，除了搜索引擎，也就文库和贴吧了！

而对话，贴吧，这……

程旭瞬间醍醐灌顶——脑海中冒出了一大堆的名词：大帝吧，航空吧，人口吧，孙吧，中西部发展吧……

这……

用这些语料做得模型早期训练？

这T-M-D究竟会训练出来个什么玩意儿？

“卧槽！”实在是没忍住，程旭爆了个粗口：“不会训练出‘阴阳人’加‘乐子人’的‘言心’模型吧？那他岂不是只会阴阳怪气儿，指桑骂槐？”

程旭摇了摇头，只是这样还是好的，真要培养出来一个类似“50w人格”的价值观出来，那千寻真的是哭都没地儿哭去！

“不不不不，没那么严重！”

潘正教授急忙摆手，制止程旭的思维再发散下去，再发散下去要完蛋了。

“真要那么严重的话，早就被发现了，也不会拖到现在。事实上，那只是在极早期的时候发生的事情。

“后续有了标准的训练流程，语料的选择和清洗也有了明确的选择和标准，模型的成长也非常顺利。

“事实上，言心模型也非常强大，毕竟，这也是数十上百亿资金堆起来的。但是，就是偶尔，对于某些问题，‘言心’偶尔就会冒出一些极为离谱的回答。

“就是因为问题是偶发的，技术人员以为是培养的问题，负责人中途也更换过，所以也就没有往早期训练语料方面去考虑。只是选择了选择纠正训练。纠正的效果其实还是不错的，所以就延续下来了。

“但是，事实证明，根儿坏了，是怎么也无法完全纠正回来的，无论迭代多少次，总是有概率出现那些极为离谱的回答。”

程旭简直无语，早期的模型就是根基啊，咋能出这样愚蠢的失误呢？

其实也不能完全说是技术人员的问题——早期大家都没有经验，都是在摸着石头过河，出现这样那样的问题都是无法完全避免的。

语料清洗，今天已经是一个标准概念了，专业教材都有讲，还没有毕业的大学生都能明白他的重要意义。

但放在十年前，十年前人工智能刚起步，那个时候，谁能知道语料清洗的重要性？

这都是无数人交了巨额的学费，付出了几乎难以承受的代价，才慢慢得出的宝贵经验。

第7章 这究竟会训练出个什么玩意儿？

第7章这究竟会训练出个什么玩意儿？