1.3 本书主要工作
本书的研究内容是山西省自然科学基金项目“面向自然语言理解的图像语义自动获取算法研究”(No.2013011017-2)和山西省高校科技创新项目“基于多特征情感语义的图像检索技术研究”(No.2013150)的主要组成部分,该项目正是针对山西省自然基金项目“基于深度层次特征挖掘的海量古代壁画分类研究:以五台山壁画为例”(No.201701D121059)和山西省教育科学”十三五“规划课题“大数据背景下MOOC在线学习行为分析与预测研究”(No. GH-17059)的支持。
场景图像情感语义研究是近年来的研究热点,不难看出,当前有关该问题的研究也面临很多挑战,许多问题都有待解决。本书围绕如何更快速、更准确地获取图像情感语义特征并进行高效检索这一目标,以场景图像为研究对象,对图像的情感语义分析和检索技术展开了研究,主要研究内容如图1-6所示。
图1-6 本书主要研究内容
Fig.1-6 The Research Content of the Dissertation
从图1-6中可以看到,本书的主要工作体现在场景图像的情感语义特征提取、情感语义自动标注方法、情感类别预测和大规模检索技术几方面的研究。
1.3.1 场景图像的情感语义特征提取研究
从场景图像检索的任务出发,重点研究了高层情感语义特征对于场景图像检索的作用,并提出了一种在开放环境下获取场景图像情感语义数据的方法,选取不同年龄段、不同职业和不同性格特征的被试在开放环境下实验,获取了大量的情感语义数据,使用主成分(PCA)分析法对获取的数据进行分析,筛选出了能表达不同类型人群的情感语义数据。
在实验获取场景图像情感语义数据的基础上,重点分析了场景图像的颜色情感语义,提出了一种基于权重的不规则分块思想的颜色特征提取算法,获取了场景图像的低层颜色特征。使用粒子群(PSO)算法优化BP神经网络参数进行特征映射,将OCC模型作为本书研究的主要情感模型,将提取的颜色特征与OCC模型中的情感形容词映射,得到了场景图像的低层视觉特征与高层情感语义特征的关系。
1.3.2 基于模糊理论的场景图像自动标注方法研究
情感语义特征描述了场景图像情感属性,但人们对图像的情感理解是有程度之分的,例如,当看到一幅关于庆祝节日的场景图像时,可能有些人感觉非常愉悦,也有些人觉得高兴,但没有那种非常开心的强烈感受。如何表达人们对场景图像理解的情感程度,成为待研究的问题。
本书提出了一种基于模糊理论的场景图像自动标注模型,在OCC模型基本情感值的基础上,定义了由隶属变量{非常|中性|几乎不}与基本情感值构成的扩展情感值,应用模糊理论建立情感空间,通过计算模糊隶属度描述情感程度,使用T-S模糊神经网络实现了场景图像的自动情感语义标注,很好地解决了图像理解中存在的语义模糊问题。
1.3.3 场景图像的情感类别预测研究
要提取丰富的情感语义内容,首先需要判断场景图像的情感类别。对于预测问题,往往在预测精度上都面临较大的挑战。一方面是由于场景图像的情感内容感知比较丰富而抽象;另一方面是不同的人对相同图像的感知也可能不同,而同一个人在不同环境下因心情不同对相同图像的感知也有可能不同。本书提出了融合情绪、性格因素的改进的OCC情感模型和基于Adaboost-PSO-BP神经网络的场景图像情感类别预测算法。
融合情绪、性格因素的改进的OCC情感模型通过加入情绪和性格因素描述个性情感。首先使用PAD模型[89]描述人的情绪特征,使用心理学界广泛使用的FFM模型[88]描述人的性格特征,将人的性格分为五类:开放型(Openness)、责任型(Conscientiousness)、外向型(Extraversion)、宜人型(Agreeableness)和神经质型(Neuroticism);然后定义了性格与情绪、OCC情感与PAD值的映射关系,最后量化了OCC情感模型。
基于Adaboost-PSO-BP神经网络的场景图像情感类别预测算法将BP神经网络作为弱预测器,并应用粒子群(PSO)算法事先优化BP神经网络的权值和阈值,Adaboost算法组合多个优化BP神经网络的预测输出构建强预测器。Adaboost算法是一种迭代算法,由于事先不需要知道弱学习算法预测精度的下限而非常适用于各类预测问题。其主要思想是获取各学习样本的权重分布,开始所有权重被赋予相等的值,但在训练过程中,样本权重被不断调整:预测精度低的样本权重得到加强,预测精度高的样本权重被减弱。最终,弱预测器加强了对难以预测的样本的学习。这样,达到一定预测精度的弱预测器,经组合后形成的强预测器就具有很高的预测精度,有效地克服了单一BP神经网络收敛速度慢、泛化能力差的缺点。通过与单一BP神经网络学习算法和传统的Adaboost-BP算法的实验对比,本书提出的基于Adaboost-PSO-BP神经网络的场景图像情感类别预测算法具有较高的预测准确率。
1.3.4 基于MapReduce的大规模场景图像检索技术研究
面对越来越多的图像数据,要提高图像的检索效率,仅考虑按照传统的单节点模式架构和单一的特征检索图像库是远远不够的。这一部分本书首先研究了基于大数据处理技术的Hadoop平台架构,然后设计了一种基于MapReduce并行编程模型的大规模场景图像检索方案,包括场景图像数据的并行存储、场景图像特征的并行提取及基于Mean Shift算法的场景图像特征并行聚类算法,又从人们通常的需要出发,利用单一的颜色视觉特征或情感语义特征以及二者结合混合特征进行检索,实验从多个方面证明了提出的方法的有效性和本书研究的实用价值。