中国影视产品网络满意度研究(2020)
上QQ阅读APP看书,第一时间看更新

第一节 浙江传媒学院视频监测与分析系统

一 概况

“浙江传媒学院视频监测与分析系统”是对娱乐视频和明星进行用户态度测评的系统。自2016年6月开始监测上星频道黄金时间(19:30—22:30)播出的电视剧和综艺节目;2017年1月开始监测100位娱乐明星;2017年5月开始监测主要院线上映的电影和6家主流视频网站的网络综艺;2018年8月开始监测5家主流视频网站的网剧;2019年3月开始监测爱奇艺、腾讯视频、优酷视频3家视频网站的网络电影。

视频监测与分析系统的建设旨在服务于我校的课程教学和学术研究工作。系统的运作分四步:

第一步:设置监测对象。学生团队完成监测对象的设置,同时录入监测对象的主要属性。

第二步:自动采集数据。计算机自动收集与监测对象相关的新闻、论坛、微博、弹幕、微信公众号、视频网站评价、豆瓣电影网站评论等信息,形成大数据。

第三步:褒贬值计算。利用语义分析技术,计算出每一条新闻、论坛、微博、弹幕、微信公众号、视频网站评价的褒贬值,褒贬值设定在-5到+5。

第四步:数据输出。根据收集和计算的数据,系统生成结果。目前有三类输出结果:一是统计图表,二是原始数据,三是月度汇总数据,供进一步分析使用。

二 功能

“浙江传媒学院视频监测与分析系统”由热点趋势、褒贬分析、数据导出、监测对象信息、后台管理、月度汇总、在线褒贬打分七个功能模块组成[1]

(一)热点趋势

热点趋势主要反映监测对象的行为指标,包括热点趋势、传播形态分布、相关热词、媒体关注分布等数据。例如,图1-1是因新型冠状病毒性肺炎春节档院线电影改为网络电影的《囧妈》2020年1月的热点趋势。系统可显示最近24小时的前10个热词,并可以Excel数据文件格式导出具体数据。

图1-1 网络电影《囧妈》热点趋势(2020年2月9日截图)

(二)褒贬分析

褒贬分析是系统最具特色的功能模块,包括褒贬趋势、褒贬总体分析等数据。图1-2是明星李现2020年1月10日到2月8日的褒贬趋势。

图1-2 明星“李现”褒贬趋势(2019年2月9日截图)

(三)数据导出

数据导出可以灵活地查询并导出原始数据,本书的主要数据通过这一功能模块获取。图1-3是以“三生三世枕上书”为关键词,进行条件设置,获取的部分检索结果。设置时间范围从2020年1月9日到2月9日,获取腾讯视频网络剧《三生三世枕上书》的微信数据有1423条,得出平均褒贬值为1.9097。

点击标题栏,可链接到相关网址,查看具体的评论内容。点击“导出Excel”,可以将这1423条数据以Excel数据文件的形式导出,包括了标题、来源、褒贬值、发布日期(精确到秒)等内容。点击“按日期分组统计导出Excel”,能将按日统计各类数据条数和褒贬值导出为Excel数据文件。

图1-3 数据导出检索结果(2020年2月10日截图)

数据导出的条件设置灵活,可以选择不同的“来源类别”(新闻、论坛、微博、弹幕、微信、网站评论、豆瓣评论)、“态度”(正面、中性、负面)和“时间范围”。数据导出可以多关键词检索,并能进行简单的逻辑运算。例如,“A B”(AB之间为空格)表示“A”和“B”同时存在(和运算),“A-B”表示有“A”但没有“B”(非运算),“A|B”表示有“A”或有“B”(或运算)。需要特别注意的是,检索的第一个关键词需要通过后台管理预先设定,否则监测与检索的结果将不完整。

多对象检索是可以实现分对象评价,即对同一句、一段、一篇中的多个评价对象给出不同的评分。图1-4是对湖南卫视《声临其境》和主持人“周涛”的检索结果,2020年1月有新闻数据52条,系统对评价对象《声临其境》和“周涛”计算出不同的褒贬值,分别为0.8656和1.4489。

图1-4 多对象数据导出检索结果(2020年2月10日截图)

(四)后台管理

后台管理包括监测对象设置、监测对象属性设置、褒贬词库管理、数据导出记录等功能。此功能仅管理员有权限使用,一般用户不能使用。监测对象的设置是系统最基础的操作,也是一项持续的工作。在系统中添加和设置监测对象的信息,包括名称、关键词、类型、等级、监控起始时间等。

图1-5 被监测对象的设置(2020年2月10日截图)

系统允许同时设置多个关键词,其逻辑运算规则同数据导出模块的设定。系统将监测对象分为“一般”“重点”“研究”三个等级,所抓取的信息量随等级依次增加。图1-5是网络综艺《演技派(2019)》的监测设置,系统将自动收集含有“演技派”的信息,监测等级是“重点”,监测日期自2020年1月6日至2月29日。

系统中的被监测的关键词库可以进行编辑,包括查询、编辑、关闭、删除、导出被监测对象数据等功能。图1-6显示了监测的关键词列表。建议用户将查询和编辑功能结合使用,便于对重播和季播节目进行监测设置。操作方式是,在“关键词”一栏输入所需查询的关键词,点击任意处,以前设置的关键词,包括已关闭的和时间过期的关键词就会显示,可对其进行编辑修改。

图1-6 网络剧监测对象列表(2020年2月10日截图)

在系统中可添加和设置监测对象,包括名称、关键词、类型、等级、监控起始时间等信息。例如图1-5,对于重播和季播的节目不需重复设置,重新编辑其信息即可。点击“导出Excel”可以定期(目前为每月一次)提供监测对象清单,包括监测对象的名称、关键词、监测开始和结束时间、监测等级、是否关闭等信息。

(五)监测对象信息

监测对象信息用于设置监测对象属性,包括播出平台、制作机构、主创人员、类型等。图1-7是电视剧《上古密约》的信息设置。该模块仅管理员有权限使用,一般用户不能使用。

图1-7 电视剧《上古密约》信息设置(2020年2月11日截图)

点击“导出Excel”可以定期(目前为每月一次)获取监测对象信息清单的Excel文件,包括监测对象的名称、关键词、播出平台、类型、主创人员名单、设置者等信息。重播和季播的节目不改变原来的信息,而是新增一条记录。

(六)月度汇总

“月度汇总”模块用于生成电视综艺、电视剧、明星、电影、网络综艺、网剧等监测对象类型的月度汇总数据的Excel文件。汇总的时间原则主要有三类:其一,对于月内开始监测,月内未结束的监测对象,统计监测“开始时间”到当月最后一天的数据;其二,对于当月以前开始监测,当月尚未结束监测的对象,则统计当月全月数据;其三,对于当月以前开始监测,当月结束监测的对象,统计当月1日到“结束日期”的数据。

表1-1是2019年监测对象概况,“监测”是每月系统监测的对象数量,“有效”是每月有效监测的对象数量。本团队规定了有效数据原则为:每天新闻、微博、论坛、弹幕、微信、视频网站评论、豆瓣评论的信息量之和大于等于15条;或者每月新闻、微博、论坛、弹幕、微信、视频网站评论豆瓣评分的数据量之和大于等于400条。2019年5月,电影、电视剧、电视综艺、网剧、网综、明星的“有效”标准调整为每天新闻、微博、论坛、微信、视频网站评论、豆瓣评论的数据量之和大于等于10条;或者每月新闻、微博、论坛、微信、视频网站评论豆瓣评分的数据量之和大于等于300条;网络大电影为每天5条,或每月100条。4月份开始有效监测不包括弹幕数据,主要原因是系统无法获取爱奇艺的弹幕数据。10月份开始有效监测不包括微信数据,原因是系统无法获取微信公众号的数据。

表1-1 2019年监测对象和有效监测对象数量

月度汇总的褒贬值为各条数据褒贬值的简单算术平均数。研究者也可以进一步设计各种权重,得出不同的综合褒贬值。

(七)在线褒贬打分

在线褒贬打分是一个对非系统抓取的数据进行语义分析的接口。有三个功能:一是研究者上传需要评价的Excel数据文件,系统自动计算出文本的褒贬值。这是无对象测评,可以对褒贬值的计算结果进一步分析。二是研究者提供一段文本,系统显示分词、褒贬词、程度副词、原始分值、不分对象评价的褒贬值等详细信息。三是比较句分析,显示比较对象与被比较对象不同的褒贬值。

三 主要特征

(一)定量评价

大数据时代背景下的专业性评价,是主观现实与客观现实交互的评价体系。我们应用元评价意识——保持广泛性、深刻性的数据收集和评价态度,建立专业性的评价标准。本团队开发的视频监测与分析系统基于词、句和篇进行语义分析,得出从正5到负5的褒贬值。系统建立娱乐视频和明星的专业词库并及时更新,截至2020年3月,词库共有词语22381个。词语的词性分为褒贬词和程度词。程度词和褒贬词均有正负之分,精确到小数点后1位。双性褒贬词和双性程度词是特殊词汇,语义分析时选择不同的值。图1-8是词语设定和维护的实例。

图1-8 词语设定和维护

(二)分对象评价

分对象评价是对同一句、一段、一篇中的多个评价对象给出不同的评分。评价对象是本系统所有的监测对象,包括正在监测和停止监测的电影、电视剧、电视综艺、网络综艺、网剧、明星、网络电影。系统进行语义分析时,评价对象作为一个词,系统不再对其进行分词,也不予评分。具体的请参阅《中国影视产品网络满意度研究(2019)》第一章。

(三)比较句评价

一个句子中有两个或两个以上评价对象和一个及以上比较词,界定为比较句。评价对象为所有监测对象,含电影、电视剧、网剧、明星、电视综艺、网络综艺、网络大电影,包括停止监测的对象。比较词是判断比较句的关键标识。比较词可以是多次词,但比较句的比较词之间没有标点符号。比较词是作为一种特殊的褒贬词,有褒贬值。

根据比较句的一般句型,分差比、等比两大类,再分肯定和否定。相关规则通过句式和赋值规则表达。句式只列出比较句的必需成分,可以增加成分(程度副词等);赋值规则中的褒贬词值等于褒贬词与程度副词之值的乘积。具体的请参阅《中国影视产品网络满意度研究(2019)》第一章。