2.3 文本信息特征分析方法的文献综述
文本信息是非结构化的定性数据,信息价值蕴含于字里行间,难以直接观察和测量,需要借助一定的方法将其转化为可被测量的数值型变量。借助自然语言处理、文本挖掘等技术,以计算机为手段的文本分析方法发展迅速,精确性和效率不断提高。词典法(Loughran and McDonald, 2011)、无监督机器学习方法(Purda and Skillicorn, 2015)、有监督机器学习方法(Bao and Datta, 2014)都在研究中得到广泛应用。在国内的研究中,早期文献也是采用小样本的手工编码方法(薛爽等,2010),近期的文献多是基于情感词典的方法对会计文本的语调特征进行提取(林乐等,2016;Zhao and Lin, 2015;谢德仁等,2015),但应用机器学习等方法对会计文本特征进行提取的依然较少。
2.3.1 词典法
词典法实质上是一种词频统计法,以构建的特征词典为基础,对特定文本的特征词语频数进行统计,从而将定性的文本数据压缩成定量的词组频数(McKenny et al.,2018)。这种文本分析技术相对容易操作,特征词典的构建可以根据研究者的目的进行灵活调整,在文献中得到了广泛使用。词典法的核心是要构建适合研究方向的特征词典。随着词典法的不断发展,国外学者已先后形成了多部比较成熟的英文文本词典,如LM词典(Loughran and McDonald, 2011;Feldman et al.,2010;Garcia, 2013;Solomon et al.,2014;Huang et al.,2014)、Henry词典(Henry, 2008;Price et al.,2012)、哈佛大学通用调查词典(Tetlock, 2007;Tetlock et al.,2008;Kothari et al.,2009;Hanley and Hoberg, 2010)和文辞乐观与悲观词汇(Davis et al.,2012)。当然,也有学者根据特定研究需求自行构建了词典(Li et al.,2013;Campbell et al.,2014)。
国内学者在参考国外英文各类词典的基础上,结合中文语境的特殊性,不断探索改进,形成了适合自身研究目的的多样化词典(聂左玲等,2017;周波等,2019;唐少清等,2020;张淑惠等,2021;杨墨等,2021;许晨曦等,2021;吴武清等,2021;白俊等,2021;底璐璐等,2020;潘怡麟等,2021)。也有部分学者以英文词典为基础,用有道词典和金山词霸对单词进行分析翻译,构建相应的中文词典(赵宇亮,2020;陈良银,2020;张程等,2021;徐晓彤等,2021;刘瑶瑶等,2021;梁日新等,2021)。在自然语言处理领域,相关学者已经开发形成了一些典型的词典库,如台湾大学NTUSD简体中文情感词典、知网HowNet情感词典、清华大学李军中文褒贬义词典等,这些词典也被会计和财务学者予以使用。此外,还有文献同时以中英文词典为基础展开相关研究(王华杰等,2018;王嘉鑫等,2020;高雅等,2020;鲍晓静等,2021;朱琳等,2021;李世刚等,2020;徐泽林等,2021;卞世博等,2020;姚潇等,2020;姚加权等,2021;阮睿等,2021)。
2.3.2 机器学习方法
随着计算机技术的快速进步,基于机器学习的文本分析方法也被广泛应用,主要包括有监督的机器学习方法和无监督的机器学习方法。
2.3.2.1 有监督的机器学习方法
有监督的机器学习方法以训练集为基础,通过模型来学习训练集中数据和标签之间的关系,最终使用确定的模型来预测未知样本。如朴素贝叶斯方法、支持向量机、K-近邻算法、逻辑回归(李成刚等,2021)、决策树(刘逸爽等,2018)等方法,其中朴素贝叶斯方法和支持向量机技术是文本分析中常用的有监督的机器学习方法。有监督的机器学习方法的基础在于训练集,这依赖于人工方式进行构建,训练集的质量对模型的准确性会造成很大影响。
朴素贝叶斯方法以贝叶斯理论为基础,首先根据贝叶斯条件概率公式计算训练集中文本属于不同类别的条件概率,然后根据文中词语特征并结合贝叶斯条件概率公式将文档归为具有最大后验概率的类别。已有很多学者运用朴素贝叶斯方法展开研究(Murphy, 2012;Antweiler and Frank, 2004;Das and Chen, 2007;Kim and Kim, 2014;Li, 2010;Jegadeesh and Wu, 2013;Huang et al.,2014;段江娇等,2017)。近几年国内许多学者也利用贝叶斯模型展开了研究。王永海等(2019)利用贝叶斯模型对分析师报告的语调进行了判断,发现当公司存在异常审计费用时,分析师会在后一年降低分析报告中的积极语调。吴武清等(2020)利用贝叶斯方法测量了分析师报告文本语调并分析其对股价同步性的影响,发现分析师积极的文本语调显著降低了所追踪公司的股价同步性。刘建梅等(2021)则利用朴素贝叶斯方法来测量管理层讨论与分析的正面语调和负面语调,研究市场投资者对管理层讨论与分析中语调信息的解读。发现投资者对正面语调和负面语调的反应具有不对称性,对正面语调无论是长期还是短期均做出了积极反应,而对于负面语调只有长期做出了消极反应。金秀等(2018)利用朴素贝叶斯分类方法对股吧信息分类,从基于质化信息的“情绪基调”、基于量化信息的“张贴程度”和基于强度信息的“关注水平”三个维度构建投资者情绪指数,发现投资者情绪指数在解释上证指数变动趋势方面具有优势。
支持向量机建立在统计学习理论和结构风险最小原理等理论的基础之上,其基本原理是首先将每个文本投射为高维空间的一个点,通过寻找到一个超平面,将这些点按照其对应的标签进行分割,使得每个类别的点到这个超平面的最近距离最大化。近期已经有一些研究是采用支持向量机方法展开的(Manela and Moreira, 2017;Tsukioka et al.,2018;Li et al.,2019;刘逸爽等,2018)。
2.3.2.2 无监督的机器学习方法
文本分析中常用的无监督学习方法包括聚类和降维技术等(Campbell et al.,2014;Bao and Datta, 2014)。与监督学习相比,无监督学习不需要为数据打标签,缺乏具有明确目的的训练方式,无法提前预知结果,也很难量化预测效果。完全通过无监督的自我学习归纳出潜在的某种规则进而实现文档的自动归类。由于研究者无法控制归类的自动性,所以在会计与财务研究领域并没有得到广泛使用。
2.3.3 自然语言处理
自然语言处理(NLP)是文本分析技术中自动化程度最高的类型。自然语言处理技术可以标记句子中单词的词性(如名词、形容词等),将文档从一种语言翻译成另一种语言,甚至结合句子的上下文来阐明词语的词义(Buntine and Jakulin, 2012)。自然语言处理是一个完全计算机自动化的过程,因此几乎不需要人类的理解或解释。此外,相对于需要人工编码(例如,主题分析)的技术,NLP的执行速度非常快,并且比其他方法更具系统性。所以,计算机科学、信息科学、语言学和心理学的研究人员已经开始利用自然语言处理方法作为文本分析工具(Chowdhury, 2003)。在会计学和财务学领域,也有学者开始使用自然语言处理技术分析财经文本。例如,罗琦等(2021)采用网络爬虫技术获取新浪微博中盈余信息相关的发帖文本,进一步利用腾讯云平台的自然语言处理API接口情感分析算法,构建了投资者盈余乐观情绪指标,发现投资者盈余乐观情绪与短期股票收益率正相关,投资者盈余乐观情绪越高涨,短期内股票价格被高估的程度越大。