TensorFlow神经网络到深度学习
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 计算机视觉的学习方式和未来趋势

“给计算机连上一个摄像头,让计算机描述它看到什么。”这是计算机视觉作为一门学科被提出时就做出的目标。如今还有大量研究人员为这个目标孜孜不倦地工作着。

拿出一张图片,上面有一只猫和一条狗,让一个人去辨识(见图2-12)。无论图片上的猫或狗的形象与种类如何,人类总是能够精确地区分图片上是猫还是狗。把这种带有标注的图片送到神经网络模型中去学习则称为“监督学习”。

图2-12 猫和狗

虽然在目前看来,在监督学习的计算机视觉领域,深度学习取得了重大成果,但是相对于生物视觉学习和分辨方式的“半监督学习”和“无监督学习”,还有更多重大的内容亟待解决,如视频里物体的运动、行为存在特定规律;在一张图片里,一个动物也是有特定结构的,利用这些视频或图像中特定的结构,可以把一个无监督的问题转化为一个有监督的问题,然后利用有监督学习的方法来学习。这是计算机视觉的学习方式。

MIT给机器“看电视剧”预测人类行为,MIT的人工智能为视频配音,迪士尼研究院可以让AI直接识别视频里正在发生的事。除此之外,计算机视觉还可应用在那些人类能力所限、感觉器官不能及的领域和单调乏味的工作上——在微笑瞬间自动按下快门、帮助汽车驾驶员泊车入位、捕捉身体的姿态与电脑游戏互动、工厂中准确地焊接部件并检查缺陷、帮助仓库分拣商品、离开家时扫地机器人清洁房间、自动将数码照片进行识别分类。

或许将来门禁系统能分辨出带有礼物的朋友,或者手持撬棒即将行窃的歹徒。更奇妙的是,它还能超越人类双眼的感官,用声波、红外线来感知这个世界,观察云层的汹涌起伏来预测天气,监测交通来调整车辆,甚至突破我们的想象,帮助理论物理学家分析超过三维空间中物体的运动。