3.3 深度学习延伸之计算机视觉
人们最初借助图像识别技术是用来满足娱乐的需求。例如,一些App利用图像识别技术让用户找到与他们长相相似的明星。在这个阶段,图像识别技术对人类视觉起到了辅助和增强的作用。图像识别技术在经历了工具化、娱乐化的阶段后,开始向更高的阶段发展,其目标就是使机器具有与人类相似的分析、理解和处理等能力。
计算机视觉的研究方向按技术难度的从易到难、商业化程度的从高到低排序,依次是图像处理、图像识别、图像理解。图像处理是指不涉及高层语义,仅针对底层像素的处理;图像识别则包含了语音信息的简单探索;图像理解进一步包含了更加丰富、广泛、深层次的语义探索。目前,在图像处理和图像识别层面机器的表现已经令人满意,但在图像理解层面的计算机视觉还有许多值得研究的地方。
在小规模图像识别上,美国有线电视新闻网(CNN)取得了当时最好的效果。但是,在大规模图像识别上,CNN取得的效果一直不佳,如对像素很多的图片内容的理解不理想。直到2012年,图像识别技术取得了大踏步前进,这主要得益于算法的提升。
计算能力的提升和海量的训练数据让深度学习的模型成功应用于一般图像的识别和理解,不仅极大地提升了图像识别的准确性,而且避免了抽取人工特征的时间消耗,还提高了在线计算效率。因此,深度学习方法成为图像识别的主流方法。
从应用层面来说,图像比文字更生动、有趣、易于理解、具有艺术感,还能存储更多的信息。计算机视觉已经达到了用于娱乐和工具的初级阶段。照片自动分类、以图搜图、图像描述生成等功能都可作为人类视觉的辅助工具。人类不再需要靠肉眼捕捉信息、大脑处理信息,而是可以由机器来捕捉、处理和分析,再将结果返给人类。展望未来,计算机视觉有望进入自主理解甚至分析决策的高级阶段,真正赋予机器“看”的能力,从而在智能家居、无人汽车等应用场景中发挥更大的价值。
从技术层面来说,图像识别的过程包括图像预处理、图像分割、特征提取和判断匹配等。图像识别是基于深度学习的“端到端”方案,可以用来处理分类问题、定位问题、检测问题、分割问题等,其典型任务包括去噪声、去模糊、超分辨率处理、滤镜处理等。图像识别技术在视频上的应用主要是对视频进行滤镜处理,在图像方面的应用包括人脸识别、光学字符识别(OCR)等。随着实际需要,人们对不断突破新的图像识别技术的需求变得格外迫切。例如,在互联网领域,当信息为文字时,人们可以通过搜索轻易地找到所需的内容,还可进行任意编辑;但当信息为图片时,就无法做到对图片内容进行检索,这就降低了信息探索的效率。这时,图像识别技术就显得特别重要。
传统的人脸识别算法,即使综合考虑颜色、形状、纹理等特征,也只能达到95%左右的准确率。而有了深度学习的加持,人脸识别的准确率可以达到99.5%,从而使人脸识别在金融、安防等领域的广泛商业化应用成为可能。在OCR领域,传统的识别方法首先要经过清晰度判断、直方图均衡、灰度化、倾斜矫正、字符切割等多项预处理工作,得到清晰且端正的字符图像后,再对文字进行识别和输出。而深度学习的出现不仅省去了复杂且耗时的预处理和后处理工作,更将字符识别的准确率从60%提高到90%以上。
Facebook公司在Messenger应用上推出了一项新功能,通过扫描手机相册照片来进行面部识别,这项功能的特别之处在于即使是遮住了脸部,也一样能识别被遮住的部分。Facebook公司的最终目标是在任何场景下识别出任何人,甚至是在光线不清晰的情况下。
图像理解的本质是图像与文本的交互,它可以用来执行基于文本的图像搜索、图像描述生成、图像问答(给定图像和问题,输出答案)等。在传统的方法下,基于文本的图像搜索是针对文本搜索返回相应的图像;图像描述生成是根据从图像中识别出的物体,基于规则模板产生描述文本;图像问答是分别从图像与文本中获取数字化表示,然后分类得到答案。而有了深度学习,就可以直接在图像与文本之间建立“端到端”的模型,提升图像理解的效果。
2015年5月,谷歌公司推出了谷歌相册(Google Photos),人们称该产品为“人工智能和图片搜索结合后所产生的具有强大功能的产品”。谷歌相册如果要搜寻一个人,可以搜寻到该人从婴儿时期以来的照片;而在搜寻某个品种时,则能找到该品种所对应的照片。图像理解任务目前还没有取得非常成熟的结果,其商业化场景也正在探索之中。
随着计算机视觉技术的不断发展,拥有像人类一样的视觉并能够理解照片的人工智能产品将无处不在。