洞察AIGC:智能创作的应用、机遇与挑战
上QQ阅读APP看书,第一时间看更新

1.2 AIGC与Web 3.0及数字孪生

Web 3.0是下一代互联网的体系架构,数字孪生是Web 3.0中一种重要表现形式——即在虚拟世界中可以映射现实世界中的对象,这些虚拟的对象能够像现实世界中的对象一样产生交互。AIGC是Web 3.0与数字孪生的内容生产基础设施,是数字孪生世界中虚拟对象的“生成器”和“活化剂”。我们无法想象没有AIGC赋能的数字孪生,因为内容生成的工作量实在庞大,这些内容不仅是文字、图片、音频、视频,还包括太多个性化的内容,例如面容表情甚至表达的手势与语气。在工业元宙(工业界更愿意用元宙一词,而不是元宇宙)中,情境则更为复杂,需要呈现的精度与准确度可能是平常要求的几十倍之上。所以也有人说,AIGC按下了元宇宙和数字孪生实操落地的快进键!

Web 2.0在过去20年里为我们提供了很好的服务,但由于其广泛的隐私和安全问题,我们已步入一个被称为Web 3.0的新数字时代的初级阶段。Web 3.0也被称为语义网,是互联网发展的新阶段,有望带来更多的用户授权、开放和隐私保护。Web 3.0应用程序旨在通过建立去中心化的基础设施来实现更高的安全性和互操作性,从而消除了对中央服务器的需求。以下列出了构成Web 3.0的五个关键构成要素:

(1)语义网。语义网使用AI来理解用户或客户可能的意思或意图。它旨在根据搜索词的实际含义而不是关键词或数字,给搜索提供更准确的理解。

(2)AI。Web 3.0的AI旨在更好地理解某人正在搜索的内容,以提供相关性更强的结果。

(3)3D图形和空间网络。虚拟现实(VR)头盔和现实图形的使用使网站在本质上变得更加逼真,为元宇宙建立一个3D渲染的、无边无际的虚拟世界。

(4)区块链和加密货币。Web 3.0的去中心化的关键是使用区块链和加密货币,这消除了中间商,使各方之间能够直接交易。

(5)无处不在的连接。由于宽带、5G、Wi-Fi和物联网,Web 3.0应用的特点是不断连接。

在完全实现的Web 3.0空间网络中,物理世界中每个建筑的每个元素都将完全数字化。每个人都会有虚拟的化身,人们将能够在虚拟的工作或会议场所漫游。表1-4呈现了Web 1.0、Web 2.0和Web 3.0的特征及相互之间的区别。

表1-4 Web 1.0、Web 2.0和Web 3.0之间的区别

资料来源:Simplilearn,John Terra,2023

尽管Facebook在2021年将其公司名称改为Meta,但元宇宙并不是Facebook首创,它只是元宇宙的积极参与者与推动者。元宇宙是一个独立于设备和供应商的集体虚拟空间,由虚拟增强的物理和数字现实的融合创造。它有自己独立的虚拟经济,由数字货币和不可伪造的代币(NFTs)促成。教育、医疗、零售和虚拟活动可以提供更加沉浸的体验,它们不需要创建自己的基础设施。元宇宙将提供框架,虚拟活动以呈现更多的综合产品,而零售业可以提供更多的沉浸式购物体验。在这方面,元宇宙与Web 3.0的空间网络并无二致,它是一种专注于3D图形和真实世界图像的虚拟沉浸式体验,而不是像当前网络体验那样的2D图形和文本。用户不是通过单击一个网站的链接来访问信息,而是在虚拟空间中行走、观察与互动。

Web 3.0和元宇宙这两种技术之间最大的区别是,人们使用Web 3.0来访问元宇宙,就像汽车使用道路一样。Web 3.0是关于去中心化的所有权和控制权,并将网络放在其用户和社区的手中。另外,元宇宙是一个共享的数字现实,使用户能够相互联系,建立经济并进行实时互动——它并不关心谁拥有它。Web 3.0也建立在区块链和加密货币的基础上,而元宇宙使用AR/VR和数字货币等技术。这是由于Web 3.0是去中心化的,没有大公司的影响或控制。两者在使用方式上也有所不同,Web 3.0是一套关于如何使用和管理互联网的新标准,元宇宙是关于游戏、社交媒体、零售和其他体验。它们的共性在于,元宇宙将继续存在于表层和深层网络中,尽管Web 3.0仍然经常被称为是去中心化的,然而,在社会媒体控制平台方面,元宇宙仍将是中心化的,两者都建立在先进的技术上,并将不断发展。语义网是元宇宙和Web 3.0的共同点。AI——这两种技术的另一个关键组成部分——将是建立一个复杂的用户界面不可或缺的。在技术意义上,与区块链一起取得的许多进展在两种技术中创造了共同点。每一个新的区块链概念都被评估为整合Web 3.0引擎的潜在模块,该引擎将为元宇宙的商品和服务提供动力。Web 3.0和元宇宙都处于早期阶段。最终的产品将在几年后出现,而且可能会有很大的不同,因为技术并不总是与它的使用愿景相匹配。

2010年以来Web 3.0月度活跃开发者数量趋势如图1-8所示。

Web 3.0应用程序将在分布式区块链和云网络上运行。在设想的数字领域中,机器可以直接与其他机器和用户交流,然而这需要机器理解数字内容。AIGC为此提供了解决方案,也正在成为Web 3.0的基本构件之一,通过更好的内容生成、推荐和改善人机互动来改善用户体验,由此AIGC也可以理解为Web 3.0的认知层,提供深度学习算法和分析能力,使机器与机器和用户之间“理解”在线内容。从本质上讲,超大规模算法模型将训练AIGC识别不同类型的内容,并为其赋予意义。这样一来,搜索引擎就不会只是推荐最受欢迎的内容类型,而是对其有一个全面深入的理解,据此更友好地与人类互动,以帮助改善整体的用户体验。

图1-8 2010年以来Web 3.0月度活跃开发者数量趋势

资料来源:Electric Capital

在Web 2.0中,AIGC已经在各个领域开始了广泛的探索,在Web 3.0中自然会有很多应用方向。在与文本生成相关的AI工具方面已取得了突破性进展,AIGC在文本创作中的应用包括编码、翻译和写作。文本创作本质上是对语言的使用。由于编程语言对AI来说相对更有结构性,更容易学习,但人类语言需要结合语境、语义等,因此,文本生成最成熟的应用场景是编码,代表性作品如AI出品的GitHub Copilot。用户用文字输入代码逻辑,它可以快速理解,并根据海量的开源代码生成子模块,供开发者使用。现在,GitHub Copilot生成的代码中有近40%是由AI编写的。虽然Web 3.0中的SDK等模块化插件提高了开发者的编程速度,但未来随着AIGC技术的普及,加密协议的开发效率可能会进一步提升。理想情况下,AIGC可以自动检测市场需求或空缺,然后独立编程并生成新协议。在人类语言的内容创造方面,AIGC也取得了很大的进展。目前,翻译的发展已经取得了很大的领先优势。Roblox通过机器学习将英文开发的游戏自动翻译成其他8种语言,包括中文、德文、法文等(如图1-9所示);腾讯开发的Dreamwriter新闻写作系统可用于22个规范的写作场景,平均发稿速度快至0.46秒;红杉资本的《生成式AI:创意新世界》一文中,部分内容由GPT3自然语言模型撰写,阅读体验较好,还兼顾了行文流畅、逻辑清晰等写作要求。

AIGC也将为Web 3.0的文本创作做出巨大贡献。Web 3.0的新闻媒体和研究机构正面临着内容生态的双边困境。例如,虽然CoinDesk和Messari的产出质量很高,但很难扩大生产规模。此外,受写作语言、翻译效率和准确性的限制,内容传播将进一步减少。另外,虽然推特上的内容很庞杂,但观点的质量无法保证。由于信息没有按照重要性和时效性等进行分类,因此呈现形式比较凌乱,没有分组、没有分类,也没有去重。显然,用户的需求并没有得到针对性的满足。同时,用户将面临信息过载的问题,在无效的内容上浪费了大量的时间。因此,Web 3.0组织在平均生产规模和平均内容质量方面都明显落后于Web 2.0的同行。然而,Web 2.0组织的规模和质量往往是基于众包策略,需要大量的初始投资。为了保证内容的质量,合格的分析师通常需要经过长期沉淀和强化培训,企业必须投入时间和培训成本。同时,为了保持产出规模,企业必须付出极高的人工成本进行大规模招聘。这类模式有两个明显的缺点:一个是成本过高;另一个是后期人才流失的风险,导致成本完全沉没。随着后续技术的进步,分析师至少可以节省总结标题和摘要的时间,而AI则能够通过理解全文直接生成。从长远来看,“合格的AI分析师”将迅速产生。Web 3.0机构将大幅降低成本,同时提高内容生成的规模和质量,从而促进整个细分市场和整个行业的发展。信息协议、新闻协议或研究协议甚至可能出现在Web 3.0中。

图1-9 Roblox自动将英文游戏翻译成其他语言

资料来源:Roblox,ShineINFAITH,Muse Labs

AIGC有可能引发Web 3.0音乐的新一轮创新。AIGC开启了歌曲制作、歌词生成等方面的应用,互动性和实时性得到进一步加强。例如,自适应音乐平台LifeScore可以实时动态地安排音乐。一旦用户输入一系列的音乐素材,AI就会对其进行改变、变形和重新混合,从而生成一场即时的音乐会。如图1-10所示,2020年5月,LifeScore为Twitch互动电视系列Artificial提供了自适应配乐,随着故事的展开,它可以根据观众的情绪状态影响配乐。系统提供了四种典型的情绪:快乐、紧张、神秘、悲伤。用户只需要通过口头语言或使用相关的表情就可以修改乐谱。从短期来看,AIGC可以帮助创作者改编、再创作,或者直接辅助音乐创作,大大减少他们的工作量,提高工作效率。从长远来看,一些音乐平台已经在Web 3.0中出现,随着AIGC技术的引入,协议可能会根据听众的个人喜好生成定制歌曲。该平台不仅可以极大地削减版权费用,而且用户还可以减少歌曲的支付。此外,用户还可以发布由AI创作的独家歌曲,为自己带来收益,从而增强Web 3.0音乐市场的创作者经济。

图1-10 LifeScore根据观众对剧情的感受,实时创建背景音乐

资料来源:Twitch

除了上述前沿方向外,AIGC在其他Web 3.0市场领域也有很大的潜力,具体包括以下应用:

· NFT的主体是图片或艺术作品。目前,许多AI模型已经收集了整个艺术史和流行文化的数据。任何用户都可以随意生成自己喜欢的NFT。不同的NFT需要有不同的面孔、服装和情感特征。传统的生成方法承担着高成本和低效率,创作者需要进行原型设计、多次建模和渲染等工作,而AIGC可以帮助创作者在前期更有效地尝试草图,并在后期节省人力来完成画面的细节。在未来,AIGC有可能实现NFT的低成本量产。此外,UGC创作容易被复制和传播,侵权问题经常发生。然而,NFTs具有唯一性、不可分割性和可交易性,可以解决资产防伪、确权、可追溯等问题,加强版权保护。

· AIGC也在改进跨模状态下的生成,如文本生成图像/动画,反之亦然。

· AIGC的进步也将促进Web 3.0社会市场领域的发展。真实的人不可避免地会有一些缺点,但AI可以创造出用户喜欢的虚拟人物,因为AIGC生成的虚拟人物将完全根据用户需求定制。用户可以定制或利用模板来定义人物的属性,如家庭、职业、年龄等。AI将帮助虚拟人物在特定场景下在外观和动作上表现得更像真实的人,并赋予它们语言表达和互动的功能,以体现一定的移情能力。此外,虚拟人物伴随着比人类更丰富的知识储备和更快的更新频率,不需要休息。因此,可以预见,虚拟人物在某些特定领域提供的娱乐和服务将与真人相媲美,甚至超越真人。例如,虚拟人物将通过与用户的交流继续学习,实现情感上的陪伴。参照Web 2.0中的ACGN群体和社交软件重度用户,Web 3.0的社交市场在AIGC的支持下无疑会变得更大。AIGC在Web 3.0教育中的应用可能产生意想不到的效果。由于AI的学习模式是相对结构化和条理化的,由AIGC制作的教科书和讲座可能会降低理解障碍,帮助受众更容易吸收知识。综上所述,AIGC在Web 3.0领域的应用是相当广阔的。

自然语言处理(NLP)是语言学和人工智能最迷人的子领域之一,也将在语义网中发挥突出作用,使AIGC算法能够分析和逐步理解在线通信。NLP在语义网中的实施对于创造一个更安全的在线环境和推进其一些最有前途的元素至关重要,例如,基于AIGC的聊天机器人来实现客户支持流程的自动化或更好的内容索引算法。AIGC作为Web 3.0认知层的应用,可为用户带来以下好处:

· 产生更多个性化的建议。AIGC驱动的推荐引擎已经在亚马逊和Netflix等流行的Web 2.0应用中被采用。AI算法可能成为Web 3.0推荐引擎的核心,因为它们有能力分析大量的用户数据并在个人层面上创建预测模型。基于AIGC的推荐引擎将带来更好的导航性和用户体验,这要归功于它们能够真正“理解”用户的偏好并提供更多个性化的推荐。

· 更智能的dApp和NFT。随着区块链开发者整合AIGC,Web 3.0将引入更智能的分散式应用(dApp),使其具有更先进的现实世界效用。一个引人入胜的早期例子是Alethea AI的Alice——第一个具有自我学习能力的非可替换代币(NFT),当它从每一次新的互动中学习时,会改变与人的互动方式。Alice有自己的个性,能够与互联网用户进行详尽的对话,并在这个过程中向他们学习。随着AI算法的进步,下一代dApp和NFT可能会从它们的功效中受益,因为分散的应用程序获得了更好的数据管理和分析能力,而下一代NFT将带有类似人类的行为。

· 更人性化的营销广告。虽然社交媒体巨头和营销公司已经在收集我们的浏览数据,以提供更多相关的广告,但这并不符合互联网用户的最佳利益。首先,互联网用户在没有意识到其真正价值的情况下,将自己的数据随意签给了暴利的第三方。其次,这些公司采用的侵入性数据挖掘做法在互联网用户中引起了广泛的隐私担忧。Web 3.0的去中心化精神旨在通过让人们重新控制自己的数据而带来更多的用户权利——这些数据可以选择与广告商共享,由广告商直接向用户付费。通过AIGC应用,广告公司将能够分析更大量的数据,并在个性化用户广告时考虑更多因素。因此,Web 3.0用户将收到更多相关广告,而人工智能算法将不断适应每个人的喜好。

· 增强的内容安全性。内容安全是Web 2.0最具挑战性的问题之一,因为我们独特的主观视角,人类的内容安全索引往往导致元数据的不一致。AIGC消除了人类思维的偏见,这可以使内容元数据更加一致和可靠。视频内容安全特别重要,因为每天上传的视频数量远远超过了人类的监督能力。然而,由于AIGC算法的大规模可扩展性,AI有望彻底改变Web 3.0的内容安全。

最后,我们再与ChatGPT做一些互动。当我问它“你认为,到2030年会有多少书籍是AI生成的?”时,它的回答反映了AIGC的局限性,即目前AIGC的功能只能对已有的内容与数据进行提取,而无法像人类一样推论或预测,但它的回答也不是一无是处:“我作为一个语言模型,无法对未来做出确切的预测。但是随着AI技术的不断发展,AIGC在出版业和其他领域中的应用正在增加。到2030年,可能会有大量的书籍是通过AI生成的,但具体数字取决于各种因素,如技术进步、市场需求、行业规范等。”所以我又问了一个具体的问题:“如何使用ChatGPT和Midjourney来完成一本书?”ChatGPT的回答就非常有价值了:

(1)确定书籍类型和主题。ChatGPT可以帮助您了解特定领域的相关信息,以及目前市场上类似书籍的趋势。

(2)开始规划书籍大纲。使用Midjourney的工具,如笔记、大纲和故事板,可以帮助您组织您的思想并开始编写您的书籍。

(3)使用ChatGPT进行研究和阅读。ChatGPT可以为您提供相关主题的资料和参考文献,以帮助您更深入地了解您所写的内容。

(4)在Midjourney平台上开始编写书籍。在这个过程中,您可以使用ChatGPT作为一个资源,以获得灵感和帮助,确保您的内容准确、清晰和易于理解。

(5)审查和编辑内容。使用Midjourney的审查和编辑工具,以及ChatGPT的建议和指导,确保您的书籍达到专业水平,并符合行业标准。

(6)发布书籍。使用Midjourney的自助出版工具,将您的书籍发布到亚马逊等在线书店,从而向全世界的读者推广您的作品。

总之,ChatGPT和Midjourney都可以为您提供宝贵的资源和工具,帮助您完成一本成功的书籍。但是,只有创造力和良好的写作技巧才是真正的关键。


(1) 泛化能力(Generalization Ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出。

(2) DALL·E是OpenAI开发的一种图像生成模型,它通过120亿个参数版本的GPT3 Transformer模型来理解自然语言输入并生成相应的图片。它既可以生成现实的对象,也能够生成现实中不存在的对象。

(3) 摩尔定律是由英特尔创始人之一戈登·摩尔(Gordon Moore)提出来的。目前,业界认为单纯靠提升工艺来提升芯片性能的方法已经无法充分满足时代的需求,半导体行业也逐步进入了后摩尔时代,其技术路线按照两个不同的维度继续演进:①“More Moore”,继续延续摩尔定律的精髓,以缩小数字集成电路的尺寸为目的,同时器件优化重心兼顾性能及功耗;②“More than Moore”,更多依靠电路设计以及系统算法优化,同时,借助先进封装技术,实现异质集成。

(4) 自然语言处理(Natural Language Processing ,NLP)是计算机科学领域与AI领域中的一个重要方向,一门融语言学、计算机科学、数学为一体的科学。它的研究方向是实现人与计算机之间用自然语言进行有效沟通。

(5) 自然语言生成(Natural Language Generation,NLG)是研究使计算机具有人一样的表达和写作的功能,即能够根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,来自动生成一段高质量的自然语言文本。

(6) 梯度消失问题是指在深度多层前馈网络或递归神经网络,无法将信息从模型的输出端传播回模型输入端的附近层,导致具有多层的模型普遍不能在给定的数据集上进行训练,或者过早地满足于一个次优的解决方案。