第四节 人工智能有哪些前沿小趋势
当前,人工智能有哪些热门的前沿研究与应用,带来了哪些最新趋势与风口?
自动驾驶:激光雷达火力全开
美国机动车工程师学会将自动驾驶从L0到L5分成了6个级别,L0是完全的人工驾驶,之后依次是辅助驾驶、部分自动驾驶、条件自动驾驶、高度自动驾驶和完全自动驾驶。级别越高,自动驾驶的程度就越高。
如果我们要做一台自动驾驶车,那么需要完成几个必需而关键的步骤:首先是感知,即使用传感器获取外界的信息;然后是判断,主要依赖云端算法;最后做出决策,该停时停,该走时走。
由此可见,感知阶段是自动驾驶汽车性能最基本、最重要的信息来源和体验保障。而目前主流的感知方式,则是依靠雷达、摄像头和激光雷达这三大传感器系统实现的。
摄像头是第一个被排除的选项,它与人类的眼睛类似,在光线足够的情况下,可以看清周围的一切。可一旦遇到强光直射、环境光照不足时就彻底“抓瞎”了。早期的雷达技术也非常不理想,传统雷达精度不够,遇到“细长”类的障碍物时经常无法识别。最理想的当然是激光雷达,但它的价格基本上直逼一辆小轿车。
硬件条件还不具备,但又想实现自动驾驶,聪明的埃隆·马斯克提出了以深度学习为主要技术的解决方案。他希望通过提升自身的人工智能技术来弥补传感器硬件的不足。
特斯拉的逻辑是,采集每一位车主的驾驶数据,用于训练自己的自动驾驶系统。通过这样的方式,特斯拉凭借海量的数据,逐渐将自己的自动驾驶能力提升到了L3级别,这让业内非常震惊。
马斯克对激光雷达一度非常排斥,在接受媒体采访时他表示:“傻子才用激光雷达,现在谁还要靠激光雷达,那就注定完蛋,不信走着瞧。”在他看来,激光雷达昂贵的价格阻碍了自动驾驶的普及。
特斯拉并非没有对手,来自谷歌的Waymo自动驾驶团队也在与其暗中较劲。
与特斯拉重视人工智能技术不同,Waymo技术与硬件并重,为实验车辆装配了昂贵的激光雷达,直接将自动驾驶提升到了L4级别,并与大众、福特等汽车厂商合作,为它们提供完整的自动驾驶解决方案。
一边是特斯拉的“深度学习”,另一边是Waymo的“软硬兼施”,两边打得不可开交。而在中国,也有诸如地平线、佑驾创新以及百度阿波罗等公司与团队,不断深耕自动驾驶领域。
2020年,自动驾驶领域很有可能取得爆炸式发展。老牌激光雷达供应商威力登(Velodyne)大幅下调了价格,让许多之前不敢尝试自动驾驶的汽车厂商,拿到了闯进新世界的门票。这样一来,特斯拉能否保持优势,传统车企会不会展开复仇,我们拭目以待。
人工智能的安全守护神
互联网需要安全保障,人工智能同样需要。你可能会疑惑,人工智能系统是按照人类的设计运转的,为什么还要考虑安全性?
这里的“安全”主要指三个方向:保证目标清晰、保护系统免受干扰和监测系统运转过程。
知名人工智能研究机构OpenAI讲过一个有趣的例子:
他们给人工智能系统训练一款赛艇驾驶游戏,游戏的评判规则是,驾驶途中收集了多少个金币,以及最后的总用时。但人工智能似乎出现了问题,为了不断收集金币,非但毫无跨过终点线的意思,反倒绕了好几个圈。后来,情况越来越失控,人工智能甚至开始和其他赛艇碰撞,或是过程中自己撞墙毁灭。
另一个案例则更为严重。2018年3月,一辆优步自动驾驶汽车在进行测试时,撞倒了一位正在过马路的女子,女子最终因抢救无效死亡。据媒体报道,优步自动驾驶没有识别出行人,也没有采取任何的制动措施。
正是基于这些安全方面的问题,人工智能安全保障服务应运而生。其中,最出名的要数谷歌旗下Deepmind开发的一项安全测试。它其实是一款2D视频游戏,只要客户把人工智能程序植入其中,就能够测试评估9项安全功能,包括人工智能系统是否会自我修改,以及能否学会作弊等。
而在中国,包括阿里巴巴、华为和百度等巨头,也加入了人工智能安全业务的争夺。随着人工智能的应用越来越多,安全需求也会越来越大,这一市场势必迅猛增长。
类脑智能:做一个“真正的大脑”
类脑智能顾名思义,就是类似生物神经网络结构的人工智能系统。它既要从功能上模拟大脑功能,又要从性能上大幅度超越生物大脑,也称神经形态计算。
早在20世纪40年代,类脑计算的神经模型就已经设计出来,并通过几十年发展获得了大幅提升。至于为什么这么多年没有进展,核心原因还是在芯片上。
传统的人工智能芯片,信息存储和数据计算是分开的。机器要先从存储部分读取数据,再利用计算部分进行运算。这样的结果是,每次运算都要读取、计算、再读取、再计算,不但过程烦琐,而且大量的功耗和算力都被浪费在读取里,与大脑的高效率、低功耗大相径庭。
所以,想要真正模仿大脑,就必须开发跟大脑结构类似的芯片。在这一点上,咱们中国走在了前面。2019年清华大学开发出全球首款异构融合类脑计算芯片——天机芯,并登上了知名科学杂志《自然》的封面。
天机芯是清华大学施路平团队历经7年打磨的芯片,使用28纳米工艺流片。这个芯片的最大特点,是兼容包括神经模态脉冲神经网络、卷积神经网络和循环神经网络在内的多种神经网络同时运行。相比于当前世界先进的IBM的TrueNorth芯片,天机芯密度提升20%,速度至少提高10倍,带宽至少提高100倍。
为了验证这款芯片的可靠性,清华团队在一辆自行车上装载了天机芯。试验中,无人自行车不仅可以识别语音指令、实现自动平衡控制,还能对前方行人进行探测和跟踪,并自动躲避障碍。
值得一提的是,保持体态平衡是人脑非常复杂的功能,它是通过运动协同、环境感知和动作执行等多个功能区域合作完成的,而这些都在天机芯片上获得了一定程度的体现。
虽然目前类脑计算应用还比较初步,和深度学习等主流人工智能算法模型相比,也存在一定的运算差距,但芯片的性能突破已经看到了曙光,规模化应用很可能不需要太长时间。
多模态语义理解:懂你更多
大家可能会对多模态语义理解这一复杂的术语比较陌生,这里我们来尝试解释一下。
我们平时在说话交流的时候,语句经常是不完整的,有时候语序甚至会前后颠倒。但我们之所以能理解这些混乱的语言,是因为人脑具备多模态语义理解能力。而目前的语音识别工具,都只能识别标准和正常的语序,更谈不上对周围环境的认知,自然就无法解决很多场景中的实际问题。
所谓模态,就是信息的来源或者形式。人类的视觉、触觉、听觉、嗅觉和味觉等感官,都属于模态的一种。因此,“多模态语义理解”就是通过多个维度,帮助人工智能模仿人类思考和学习,这也是机器真正迈向智能的关键。
比如我们看一部电视剧时,眼睛要看图像和字幕,耳朵用来听声音,对不同事物的不同状态,人脑能够做到同时学习和理解。
假如给传统人工智能提供一张图片,图上有一只小狗在大树的阴影下休息。此时,传统人工智能会基于视觉语义理解,把识别目标分成两类,一个目标是小狗,另外一个目标则是一棵树。而我们人脑可以进行更加深入式的理解,即一个小狗在树荫下乘凉,外面一定是炎热的夏日,周围温度很高。
试想这样一个场景,你正准备驾车回公司与客户面谈。因为不记得具体的时间和地点,所以你询问车载语音助手当天的日程表安排。常规情况下,机器在回答了你的问题之后,对话过程就结束了。但通过多模态语义理解的加持,机器还会主动询问你,是否需要预定公司的会议室,并安排中午与客户吃饭的餐厅。
目前,百度、华为和科大讯飞都在这个领域有较强的实力,也有一些科研机构出身的创业公司,在某些细分领域建立了壁垒。随着多模态语义理解技术的成熟,可以让机器“听清”“看清”“理解”人类语言,从而更好地支撑各种人工智能应用,它绝对是一个不容忽视的前沿趋势。
上面几点趋势,只是人工智能发展创新趋势里的冰山一角。作为一种新兴技术,人工智能的使命注定是奔着提高生产效率,丰富人类物质生活的大方向去的。未来,你能够在所有领域看到人工智能的身影,就像是之前的互联网时代一样,将成为人们生活中的“水电气”。