第1章绪论

我们只能向前看到很短的距离，但是我们能够看到仍然有很多事情要做。

——阿兰·麦席森·图灵（1912—1954）

1.1 引言

随着信息化的迅猛发展，人类已全面进入了一个数字信息爆炸的时代。由于数字化信息爆炸似的增加以及传输、存储、处理方式的不断发展，人们将越来越多的把数字图像、视频等数字影像信息应用到家庭娱乐、生活管理、安全监护等方方面面之中，其带来的优质视听体验、便捷的服务给人们的生活质量带来了极大的提升，但与此同时，人们对于更高品质的追求，势必对海量数据的采集、存储、管理、查询以及智能分析带来更大的挑战。在人类感知外界信息的媒介中，视觉部分占据了80%以上，人们希望机器仿照人类视觉系统，通过电子化技术感知，通过计算机处理去理解图像，复制人类视觉效果，即形成了计算机视觉技术（Computer Vision）。

近二十年来，随着数字视频压缩技术、计算机技术和网络技术日新月异的发展，计算机视觉技术迅速成长壮大，发展为信息科学研究领域一个重要的分支。另外随着人民物质生活水平的提高，固定摄像机监控视频以其丰富、直观而具体的信息表达形式越来越得到广泛的应用。但与此同时，不间断获取的海量视频数据如何进行有效的管理，如何自动从中有效提取人们想要的信息和知识，成为一个十分紧迫的研究课题。智能视频监控（Intelligent Video Surveillance，IVS）是计算机视觉技术与多个科学技术结合的一个重要应用领域，作为计算机视觉研究的一个最显著的应用点，它利用图像处理、模式识别、人工智能等技术对监控系统采集到的视频图像序列进行处理和分析，智能化地理解视频内容并及时做出处理和反应，具有高度的学术价值和广泛的应用前景。

1.2 背景及意义

进入21世纪，特别是美国9·11事件、俄罗斯莫斯科人质等事件，极大地冲击了世人的传统安全观念，也强烈催生了人们对安全环境的关注和各种安全需求。在我国，伴随着经济的高速发展，交通事故、治安问题、恐怖袭击等社会不安定事件日渐增多，这使得我国公安部门对利用智能视频监控系统快速搜索定位犯罪目标辅助破案、对异常事件进行提前预警的需求空前强烈。在此背景下，以视频监控系统为代表的信息安全手段日益受到国内外的重视。

目前，视频监控系统已广泛应用到交通监控领域（如交通路口、机场、高速公路等）、军事和国家重要安全部门（如仓库、博物馆等）和敏感公共场合（如银行、超市、天安门广场等）。图1-1为几个典型的监控场景照片。从这些监控系统中所获取到的大量监控视频数据，为人们在安全防范和决策支持方面提供了很大的帮助。

图1-1 几个典型的监控场景照片（来自互联网）

然而伴随越来越多的监控系统而来的是海量的视频数据，而对行为事件的检测和事后的事故原因分析（检索和浏览）等任务仍需要人的操作。这使得人的劳动量非常大，并需要人的高度注意力和警惕性。然而，这种需要人为参与的视频监控，由于存在着人类自身的生理弱点，使各类视频监控系统均或多或少地存在报警精确度差、误报和漏报现象多、录像数据分析困难等缺陷，从而导致整个系统安全性和实用性的降低。随着现代社会人类活动的范围越来越大，面临的突发事件和异常事件非常复杂，视频监控的难度和重要性也越来越突出。智能视频监控彻底改变了以往由人工对监控画面进行监视和分析的模式，而是通过机器学习、模式识别等算法，使用户可以更加精确地定义安全威胁的特征，在全天候实时监控的同时，大大提高报警精度和响应速度，有效降低误报和漏报现象，减少无用数据量。

从军事、警用到民用领域，智能视频监控系统都有着极大的应用前景。在军事上，通过视频监控准确掌握战场情况有利于指挥员判断战局做出合理军事决策，从而掌握战场主动。在警用领域，智能交通管理的大面积应用已证明了智能视频监控的意义，而在公众场所、高危区域建立智能视频监控系统一方面将震慑犯罪分子，减少罪案发生；另一方面可以做到提前预警、快速出警，将危害降到最低。在普通民用方面，智能视频监控运用到生产线上将大大提高生产效率，提高产品质量，运用到医学领域也可以辅助医生进行高难度的复杂手术，运用到其它监控管理场所也可以大幅度节省资源、提高效率。

1.3 国内外研究现状

在计算机技术和网络技术的引领下，视频监控技术实现了迅猛的发展。按图1-2所示，视频监控系统先后经历了三个时代，从21世纪90年代初的模拟视频监控时代到20世纪90年代中的数字视频监控时代再到进入21世纪后的智能视频监控时代。第一代视频监控系统使用传统的模拟摄录和存储设备，清晰度较低且视频信息的存储、检索和功能扩展均非常不便。随着数字技术的发展，20世纪90年代中期后出现了第二代数字化视频监控系统。数字视频监控系统的显著特征是使用数字化摄录存储设备取代了传统的模拟设备，同时，随着数字化编码压缩等其他计算机技术的发展，显著提高了视频数据的管理和处理能力，一些早期的图形图像处理算法开始在监控系统中投入实际应用，但此时的监控系统依然较为封闭，且受布线等因素的限制，监控区域也比较有限。当视频监控技术和当代图像处理与模式识别技术相结合就出现了第三代智能视频监控技术。智能视频监控具备对视频数据流自动地进行目标检测、跟踪、识别分析等功能。有别于传统的以人力为中心的视频监控系统，智能视频系统是一个以一系列图像处理和模式识别算法为核心的人不在回路中的闭合系统。当今计算机强大的数据处理能力使得智能视频系统能够运用较复杂的算法对视频流中的数据进行实时分析，按照使用者设定的逻辑和规则及时获取海量数据中的关键信息。系统不仅能够发现监控场景中的入侵等异常情况，还能够及时对异常情况发出预警并进行响应，提高了事件处理效率并减少了漏警现象。视频监控系统日趋复杂，在功能和性能上得到了很大的提高，在安防、国防安全、商业等领域展现了广阔的应用前景。在看到了智能视频监控系统技术的可实现性和应用前景的广泛性后，国内外高度重视，从学术界到工业界都投入了大量的人力和物力用于智能视频监控系统及相关技术的研究。

图1-2 视频监控系统发展过程

正是看到了智能视频监控的广阔应用前景，近些年世界各国，尤其在美英等国已经开展了大量相关项目的研究。从政府到企业，从学术界到工业界都在智能视频监控领域的研究上投入了巨大的精力，并且已经取得了很多实用的成果。这里列举一些典型的项目和系统：美国国防高级研究项目署（The U.S. Defense Advanced Research Projects Agency, DARPA）在1997年设立了以卡内基梅隆大学为首，联合麻省理工学院等多所高等院校和研究机构参加的视频监控项目（Video Surveillance and Monitoring, VSAM[2]），主要研究了实时自动监控军事和民用场景的视频理解技术；为了应对恐怖袭击，DARPA在2000年又资助了远程人类识别项目（Human Identification at a Distance, HID[3]），研究开发多模式的监控技术以实现远距离情况下对人的检测、分类和识别。民用研究方面，一些成熟的系统也得到了广泛的应用；Haritaoglu等[4]开发了VSAM的一个子系统W4（Who are they? When do they act?Where do they act? What are they doing?），使用单摄像机对复杂的室外环境下的行人进行定位和分割并实时跟踪多人；美国ISS公司的AUTOSCOPE 2004[5]视频检测系统是一种分布式智能视频监控系统，该系统用于检测在铁路线上无人值守的候车室内和铁路沿线重要路段出现的遗弃物。AUTOSCOPE技术通过在北美、欧洲和亚洲数以千计运行的交通智能管理监控系统中，得到了实践的验证，具有如下功能：通过车辆检测控制交通信号（模拟感应线圈）、检测车辆排队长度、检测转弯车辆、自动检测事故、测速、提供用户自定义的其他功能；IBM研究院开展了基于监控视频的行为分析，开发了智能监控系统，其研究内容包括实时人/车等运动目标的检测与跟踪、人/车等运动目标行为的告警检测和相关事件的搜索与统计，让计算机自动智能地完成这些任务；欧洲的CROMATICA系统，通过地铁站内人等目标的检测与跟踪监控，可以发现反常的人流（如过度拥挤），铁轨上异物出现的危险情况，以及流氓活动、斗殴等，并以声光等多媒体方式通知监控人员，或根据预先设置的处置程序自动处置发生事件；嵌入式智能摄像头系统Smart Camera[6]由Princeton大学嵌入式系统工作组研制，该系统可以获取场景的高层描述信息，并可以对所看到的场景做实时的内容分析。该系统的一个典型应用案例就是在对场景中行人的检测与跟踪的基础上，对人的行为进行探测和分析，达到人的姿势和行为辨识的目的。除此之外，还有AVS[7]、Pfinder[8]、FDI的Smart System、ObjectVideo的交通监控产品等项目。

在欧盟长期研究项目EULTR（European Union Long Term Research）资助比利时Katholieke大学的电子工程系、法国国家计算机科学和控制研究院INRIA（The French National Institute for Research in Computer Science and Control）等联合研究，为警察、法庭等司法机关提供基于图像处理的视频监控系统。1999年，欧盟六所科研机构共同实施了视频监控和检索重大项目ADVISOR（Annotated Digital Video for Surveillance and Optimized Retrieval），研究了公共交通网络的视频分析问题，通过多摄像机对地铁站点人的检测与跟踪监控，分析人和人群的密度、运动和行为等信息，用于检测危险或犯罪行为。在敏感安全场所的监控上，欧洲科研机构还针对机场环境进行了目标的检测及其异常行为的预警研究，如2004年由英国雷丁大学联合多家机构联合实施的AVITRAC项目。2005年，欧洲多个组织联合开发了ISCAPS（Integrated Surveillance of Crowded Areas for Public Security）项目，主要研究人的自动监控技术，用于发现人群聚集区域的潜在安全威胁。另外，如美国的麻省理工学院（MIT）、加州大学伯克利分校（UC Berkeley）、英国的牛津大学（Oxford）、剑桥大学（Cambridge）、法兰克福理工学院（Nagel）等，也都在智能视频监控领域展开了深入的研究工作。在该领域，国内也有很多高校和研究机构，如中国科学院自动化研究所模式识别国家重点实验室、中国科学院计算技术研究所、清华大学、北京大学、上海交通大学、北京航空航天大学、北京理工大学、华中科技大学、微软亚洲研究院等科研单位的相关实验室，都进行了大量深入的研究。为推动我国在智能视觉监控领域的研宄，中国科学院自动化研究所在2011年举办了第三届全国智能视觉监控会议，讨论视觉监控技术的研宄动态和趋势，并促进国内科研人员在此领域的交流与合作。从2011年开始，国内该领域的青年学者开始组织视觉与学习青年研讨会（目前已经连续举办了五届）。中国计算机学会学科前沿讲习班已在2012年专门组织了面向全国科研工作者的“视觉模式识别”专题讲习班。IEEE从1998年起资助了国际视频监控系统研讨会，连续三年分别在印度（1998）、美国（1999）和爱尔兰（2000）举办了视频监控的专题国际会议，2001年，IEEE在加拿大的温哥华举行了关于视频事件的检测与识别的专题国际会议。另外，当前国际上一些权威期刊如IJCV（International Journal of Computer Vision）、CVIU（Computer Vision and Image Understanding）、TPAMI（IEEE Trans on Pattern Analysis and Machine Intelligence）、PR（Pattern Recognition）、IVC（Image and Vision Computing）、TNN（IEEE Transactions on Neural Networks）和重要学术会议如ICCV（International Conference on Computer Vision）、CVPR（IEEE, Conference on Computer Vision）、ECCV（European Conference on Computer Vision and Pattrn Recognition）、AVSS（IEEE International Conference on Advanced Video and Signal-Based Surveillance）、ICIP（International Conference on Image Processing）、ICPR（International Conference on Pattern Recognition）、ACCV（Asia Conference on Computer Vision）等将智能视频监控研究作为主题内容之一，为该领域的研究人员提供了更多的交流机会。

1.4 主要难点与发展趋势

随着智能视频监控技术在人类社会多个领域的广泛应用，如何对异常行为事件做出正确的判断和预警，还有如何对海量视频监控数据进行处理便于快速浏览和分析，成为当前智能视频监控的重中之重。尽管近几年研究者们做了大量的工作，但是在异常事件检测和视频摘要中，仍然存在以下几个关键的技术问题：

（1）在拥挤场景下，如何提取有效特的征训练事件模型，进行异常事件检测。在拥挤场景下，由于背景复杂、遮挡严重，使得异常事件检测变成一个极具挑战的任务。许多现有的工作都是基于运动轨迹、光流或时空梯度等特征，用统计学等方法训练事件模型，进行异常检测。但在拥挤场景下，跟踪困难，光流等信息也含有大量的噪声。为了提高检测性能，如果在拥挤场景下提取更能反映群体行为的特征，训练事件模型是一个极其关键的问题。

（2）在训练样本有限的情况下，如何有效地训练模型，进行异常事件检测。在基于概率的模型中，为了更好地表示事件，需要提取样本更高维的特征，这样就需要指数级增长的训练样本个数去训练模型。但是正常的训练样本个数往往有限。另外由于拥挤场景下，遮挡严重，提取的特征包含很多噪声，现有的异常检测模型对噪声的处理不够鲁棒。如何解决好上面两个问题，是异常事件检测的关键。

（3）如何实现面向人群的场景语义理解。目前，人群场景理解研究中仍有很大挑战的问题是场景地点语义理解和异常事件语义理解。在人群场景的地点语义理解问题上，过去很少有针对性的工作，大部分的工作都是笼统地面向解决一般性的场景地点识别问题，无法适用于解决人群场景地点的识别，因此有必要设计一种针对人群场景的场景地点语义理解的方案。在人群场景的异常事件语义理解问题上，过去的工作多是基于目标检测和跟踪或基于大样本训练，前者的局限是无法在相互遮挡严重的复杂人群场景中使用；后者的局限是需要在特定场景中长时间训练，而且获得的模型并不稳定。因此有必要设计一种既能避免基于多目标检测和多目标跟踪等目前尚无法完全解决的难点问题，又能在实际场景中适应于多种场景的人群异常事件理解方法。

（4）如何生成更方便人理解并具有更高压缩率的视频摘要。视频浓缩是最近几年发展的基于运动目标的视频摘要，它生成高压缩率的视频概略，保留了原视频中目标的动态特性。但是，现有的视频浓缩算法只消除了时间和空间上的冗余，而没有消除内容上的冗余。在视频浓缩过程中，太多的运动观测目标会降低视频浓缩效率，并影响浓缩视频视觉效果。因此，如何在视频浓缩中从时间、空间和内容上消除冗余，是一个值得研究的问题。随着智能监控的发展，如何对在大场景中利用多摄像机进行监控显得尤为重要。基于大场景的视频浓缩，能够展现完整的运动行为，便于检索和浏览，已经越来越有价值和需要。其中如何对摄像机之间运动目标进行匹配，是一个关键且值得深入研究的问题。

1.5 研究内容与结构安排

本书主要针对智能视频监控中的两个核心问题，即异常事件检测和视频浓缩（基于目标运动的视频摘要），学习并借鉴了模式识别、机器学习和计算机视觉中一些先进技术，探讨了复杂场景下的特征提取以及异常事件模型建模、高效视频浓缩问题，为增强现有智能视频监控系统的自动化和信息处理能力提供理论支持、技术帮助。

1.5.1 本书的研究内容

本书围绕着图像目标的表示与识别这一主题，鉴于当前国内外相关领域的众多先进成果和空白之处，对以下几个方面的问题进行了深入的探讨和研究。

1．拥挤场景下异常事件检测技术

拥挤场景下，目标之间遮挡严重，提取的特征包含大量噪声。本书根据应用背景和实际需求，探讨了社会力模型和稀疏编码算法在拥挤场景下异常事件检测的应用。社会力模型，重点研究了如果对互作用力进行建模，期间重点考虑了个体周围目标之间运动一致性，距离和运动视角问题对互作用估算的影响，最后采用稀疏主题模型（Sparse Topical Coding）训练模型，用来判别正常和异常事件。另外由于稀疏表示对高维特征稀疏特征具有很好的表达能力，本书探讨采用非负矩阵分解结合EMD距离学习字典，用来做拥挤场景下的异常事件检测。

2．基于关键观测点选择的视频浓缩技术

由于监控视频目标运动对象序列中，相邻目标的相似性，造成很大的内容冗余。现有的关键观测点选择算法，通常通过聚类人为定义观测点数量，但是不同的运动目标行为不一样，造成关键观测点数量不一致。本书研究采用一种新颖多核相似度来自适应选择关键观测点。另外基于观测点选择，改进了视频浓缩能量损失函数，提高了视频浓缩的效率和浓缩视频的视觉效果。

3．多摄像头视频浓缩技术

由于单摄像机视角有限，在大场景就需要多摄像机监控。多摄像机监控中，寻找或跟踪目标在不同摄像机中的完整行为非常困难。本书研究基于摄像机网络的视频浓缩，通过产生在整个场景上的浓缩视频，用来解决这个问题，便于浏览和检索目标在整个场景中完整的运动行为。为了进行摄像机网络上的视频浓缩，首先必须得到运动目标在多摄像机中的完整运动行为，本书研究采用重加权随机游走模型（Reweighted Random Walk）进行摄像机之间轨迹匹配。

1.5.2 本书的结构安排

本书的组织结构如下：

第1章，绪论。介绍了本书的研究目的和意义，并介绍了国内外的发展现状；列举了智能视频监控常用的数据库，探讨了智能视频监控的主要难点和发展趋势；介绍了常用的开发手段和环境；最后，对本书基本内容和结构安排进行简要说明。

第2章，视频分析与摘要研究现状。详细介绍了其相关研究、当前国内外研究主要采用的方法、目前存在的研究难点以及将来可能的研究方向。

第3章，基于社会力模型的拥挤场景下异常事件检测。基于社会力模型提出了一种互作用力估计方法，用于拥挤场景下的异常事件检测；在互作用力估计方法中，充分考虑了个体周围目标之间运动一致性、距离和运动视角问题；基于互作用力流，提取词袋特征，然后用稀疏主题模型训练模型，用来判别正常和异常事件。

第4章，基于鲁棒性稀疏编码的拥挤场景下异常事件检测。为了解决拥挤场景下遮挡问题，提出了一个基于稀疏编码框架的新颖的拥挤场景下异常事件检测的方法，用来处理特征的噪声和不确定性问题。算法采用非负矩阵分解来学习字典，另外采用堆土机距离（Earth Mover's Distance）作为距离度量。由于原始EMD的一个大问题是计算复杂度太高，为了解决这个问题，算法中引入了近似EMD（wavelet EMD），保证算法性能的同时又降低了计算复杂度。

第5章，基于关键观测点选择的视频浓缩。现有的视频浓缩算法，虽然解决了时间和空间上的冗余，却忽略了内容上的冗余；另外在视频浓缩中，太多目标观测点，容易降低视频浓缩的压缩率和使浓缩视频变得杂乱；算法根据空间一致性、外观和运动三个方面的准则，采用数据驱动的方法来自适应选取关键观测点，用来代表原始视频中的运动行为，消除内容上的冗余；另外，把关键目标选择和视频浓缩算法结合，得到压缩率更高，损耗更小的浓缩视频。

第6章，基于摄像机网络的视频浓缩。采用基于加权随机游走的图匹配算法，结合多种有效特征，进行摄像机之间的轨迹匹配；浓缩算法上，考虑了目标重叠损耗，丢失损耗，背景不一致损耗和长度损耗，用模拟退火法进行优化，取得最佳排列，在全景图上叠加得到浓缩视频。

第1章 绪论