2.1 文本信息来源的文献综述
在资本市场中,广泛存在着多样化的文本信息来源。例如,公司披露季报年报(Price et al.,2012)、招股说明书(Loughran and McDonald, 2014)、季度盈余公告(Davis et al.,2012)、管理层盈余预告(Li, 2010)、管理层讨论与分析(Davis et al.,2012)、电话会议(Brochet et al.,2016;Bochkay et al.,2019)、分析师研究报告(Huang et al.,2014;De Franco et al.,2015;吴武清等,2020)、财经媒体报道(Gulen and Ion, 2016;王靖一等,2018)、互联网论坛帖子(Cookson and Niessner, 2020;姚加权等,2021)等。
这些多样化的文本可以从信息发布主体的角度进行一定程度的区分。资本市场的各种参与主体通过各种方式发布与公司、机构和市场发展相关的信息,从而成为信息发布主体。例如,上市公司根据监管规定或者自愿地发布公司相关的信息,证券分析师作为专业人士发布各种分析报告,各类财经媒体也在持续地发布各种财经信息,投资者在网络论坛、微博、微信等网络媒体上也可以表达个人的观点。后文将从信息发布主体的角度对文本信息的来源进行归类总结。
2.1.1 上市公司披露文本
上市公司公开披露的文件是公司管理当局官方发布的公开信息,是会计文本信息的首要来源。这些文件有可能是根据监管机构的要求强制性披露的,如财务报告文本、招股说明书文本;也有可能是公司出于某种动机自愿披露的文本,如业绩说明会。这些文本的语言风格、语调、语气等可能会传达关于财务报表中数字以外的预期未来公司业绩的增量信息,受到了研究者的广泛关注。
2.1.1.1 财务报告文本
财务报告是公司定期发布的反映企业财务状况、经营成果和现金流量的系统性文件。随着监管政策的发展,财务报告中文本信息逐步增加,得到了学者的广泛关注。根据研究对象可以将财务报告文本研究划分为两个方面。一是财务报告文本整体性的研究。无论是年度报告还是中期报告,把财务报告文本作为一个整体,考察年报文本的各种特征的生成机制与经济后果。二是财务报告文本特定部分的研究,这类研究并不是关注财务报告的全部内容,而是关注其中特定部分的内容,如管理层讨论与分析、董事会报告等。
(1)财务报告文本整体性的研究
十余年前,关于财务报告文本整体性的研究在国外已经得到了充分关注。这类研究将财务报告(季报或者中报)文本视为一个整体(Loughran and McDonald, 2011;Bonsall IV et al.,2017;Feldman et al.,2008;Li, 2010,2008;Loughran and McDonald, 2011;Jegadeesh and Wu, 2013),根据研究目的提取年报文本的某种特征,进而开展相关研究。年报文本特征主要包括语气语调(Loughran and McDonald, 2011;Mayew et al.,2015;Jiang et al.,2019)、可读性(Lehavy et al.,2011;Lo et al.,2017;Li, 2008;Guay et al.,2016)、相似度(Hoberg and Phillips, 2010;Hoberg and Phillips, 2016;Brown and Tucker, 2011;Lang and Stice-Lawrence, 2015)等内容。
虽然关于财务报告整体性的研究在国内开始得比较晚,但在最近几年得到了快速增长。首先,在年报文本语调方面,主要关注了年报文本语调具有何种经济后果,发现年报文本语调对股价崩盘风险(周波等,2019)、股价同步性(余海宗等,2021;许晨曦等,2021)、信用风险预警(刘逸爽等,2018)、审计费用(梁日新等,2021;徐晓彤等,2021)和审计意见(王嘉鑫等,2020;李世刚等,2020)、债权融资(赵宇亮,2020)及企业现金持有决策(底璐璐等,2020)等都具有重要影响。部分文献分析了年报文本语调的影响因素,如行业竞争(陈良银,2020)、党组织参与公司治理(鲍晓静等,2021)都会影响公司年报文本的语调。一些文献从操控性语调角度分析了盈余管理与语调操纵的关系(朱朝晖等,2018;黄超等,2019;王华杰等,2018)。另外,分析师、市场、投资者是否能够甄别年报文本语调中所传达的增量信息,也是一个非常重要的研究领域(许文瀚等,2019;张程等,2021)。
其次,在年报文本可读性方面,关于影响因素的研究比经济后果的研究相对更多。在可读性的影响因素方面,主要包括盈余管理(叶勇等,2018)、管理层印象管理行为(张秀敏等,2021)、董秘特征(孙文章,2019,2021)、实地调研(逯东等,2019)、股权质押(逯东等,2020;王秀丽等,2020)、经济政策不确定性(丁亚楠等,2021)、资本市场开放(阮睿等,2021)、财务问询函(翟淑萍等,2020)。在可读性的经济后果方面,主要分析了年报文本可读性对分析师预测(丘心颖等,2016;刘会芹等,2020;朱丹等,2021)、股票流动性(王运陈等,2020)、企业创新(李春涛等,2020)、资产误定价(贺康等,2020)、未预期盈余的市场反应(张娟等,2020)等方面的影响。
再次,在年报文本相似度方面,现有研究主要关注年报文本相似度的经济后果,张淑惠等(2021)发现年报风险信息披露的相似性会对股价同步性产生重要影响。钱爱民等(2020)发现财务报告相似度会对企业违规处罚概率产生重要影响。此外,何雨晴等(2021)的研究则发现企业的创新行为会影响企业年报披露文本的相似度,这是从影响因素的角度探讨文本相似性是如何形成的。还有一些文献利用财务报告文本附注中文本信息的相似性去测量不同企业主营业务的相似度(吴璇等,2019),并以此为基础开展了进一步的研究,扩展了年报文本相似度的研究领域。
最后,年报文本内容特征是非常丰富的,除了上面所总结的语调、可读性、相似性等方面,现有研究还重点关注了一些主题内容,如风险信息披露特征、互联网信息披露等。企业的业务特征,如创新活动,会对企业风险信息披露产生重要影响(许文瀚等,2019)。企业的外部因素,如市场和投资者对企业的实地调研(刘晨等,2021),会导致企业减少风险信息披露。企业的风险信息披露对公司股价同步性(张淑惠等,2021)、股票流动性(杨墨等,2021)等会形成重要的经济后果。年报中较高的“互联网+”信息披露频率会增加企业股价崩盘风险(赵璨等,2020),外部经济政策不确定性下企业年报中发展预期信息披露则呈现出特定的策略选择(杨杨等,2021)。
(2)财务报告文本特定部分的研究
财务报告文本中特定部分内容的研究主要关注管理层讨论与分析、董事会报告等内容。管理层讨论与分析是上市公司财务报告中的核心内容,为投资者提供关于企业的各类信息,发挥着至关重要的作用,得到了国内外学者的广泛关注。与年报整体文本包含很多噪声信息不同,管理层讨论与分析的信息更为精练,是管理层对企业发展的主观性描述,传达了更丰富的内容。因此,在管理层讨论与分析的研究中,研究者不仅关注传统的语调、可读性、相似性等客观语言特征,更加关注管理层讨论与分析中的前瞻性陈述(Mayew et al.,2015;Lehavy et al.,2011;Li, 2010;Frankel et al.,2016)、风险因素披露(Bao and Datta, 2014;Campbell et al.,2014;Hanley and Hoberg, 2019)等主观内容特征。
在传统的语调特征方面,管理层讨论与分析文本的语调对公司贷款(卢介然等,2019)、盈利指标(黄方亮等,2019)、公司债券信用利差(姚潇等,2020)、创新活动(许文瀚等,2020;林煜恩等,2020)、资产定价效率(高雅等,2020)、企业融资约束(邱静等,2021)、股利政策(张子健,2019)、慈善捐赠(范黎波等,2020)、企业社会责任(周建等,2021)、投资者信息解读(刘建梅等,2021)等都具有广泛的影响;企业的内外部因素,如政治关联(贺康等,2020)、印象管理(原东良等,2021)都会影响管理层讨论与分析的语调,甚至有可能促使企业进行语调操控与管理。在传统的文本相似度方面,现有文献发现文本相似度会影响企业股权资本成本(蒋艳辉等,2014)、资本结构动态调整(张志强等,2021)、CFO地位(游家兴等,2021)、审计师更换(葛锐等,2020)等。
管理层讨论与分析的主观性特征也被研究者广泛讨论,如前瞻性信息、风险信息、语言真诚性等。管理层讨论与分析中的前瞻性信息对企业财务危机的预测(苗霞等,2019;李秉成等,2019;陈艺云,2019)、供应商投资效率(白俊等,2021)具有重要影响,而管理层讨论与分析中的语言真诚性则会影响企业的股价同步性(王运陈等,2020)。
年报中关于董事会报告的研究也得到了研究者的重视,一些研究发现董事会报告的可读性对企业的股权资本成本以及证券分析师盈利预测具有重要影响(江媛等,2018,2019)。也有文献发现企业管理当局会利用董事会报告可读性操控来配合企业的盈余管理行为(王治等,2020)。
2.1.1.2 业绩说明会文本
2004年,深圳证券交易所先后发布了《深圳证券交易所中小企业板上市公司诚信建设指引》和《关于做好中小企业板上市公司2005年年度报告工作的通知》,要求中小板上市公司通过召开业绩说明会的方式进行信息披露。这一强制性的监管政策促使中国上市公司召开业绩说明会的现象日趋普遍(谢德仁等,2015)。上市公司召开业绩说明会的披露形式是强制性的,但业绩说明会中披露的内容却没有明确的规定。这使得业绩说明会中披露的内容主要由上市公司自行决定,信息披露的载体也主要是文本性的信息。这种反映了管理当局主观披露的文本内容得到了研究者的广泛关注。谢德仁等(2015)的研究发现业绩说明会的语调能够较好地预测未来业绩,具有一定的信息含量。进一步地,林乐等(2016)从投资者的角度对业绩说明会的信息含量进行了研究,而后又将其扩展至分析师盈余预测层面(林乐等,2017)。上述开创性的研究在确认业绩说明会文本信息含量之后,引起了学者的广泛关注。后续的文献发现业绩说明会的语调对资本市场的定价效率(甘丽凝等,2019;刘瑶瑶等,2021)、市场反应(朱朝晖等,2018)、盈余管理行为(朱朝晖等,2018)、上市公司业绩(唐少清等,2020)、分析师预测准确性(钟凯等,2020)等方面都具有重要影响。另外,还有文献分析了业绩说明会中管理层答非所问程度的后果,发现公司答非所问程度越高,未来的股票市场表现和未来业绩越差(卞世博等,2021)。
2.1.1.3 招股说明书文本
招股说明书是企业在资本市场公开募集股权资金时进行信息披露的载体,对于发行公司、投资者、监管者都具有重要意义,得到了学者的广泛关注(Loughran and McDonald, 2014)。招股说明书包含大量的文本信息,这些信息对公司能否发行成功、发行定价(You et al.,2018)、发行后的股票收益和股票波动性(Yan et al.,2019)都具有重要影响。需要注意的是,现有文献重点关注了招股说明书文本的负面语调而非正面语调。
国内文献针对招股说明书文本的经济后果也进行了广泛探讨。与国外研究类似,国内一些文献借鉴国外的方法,试图对中文语境下招股说明书的负面语调进行量化,在此基础上分析招股说明书负面语调与公司上市后业绩表现、首次公开募股(IPO)的首日回报及长期表现之间的关系(贾德奎等,2019;卞世博等,2020)。还有学者研究了招股说明书文本可读性对IPO抑价的影响(周佰成等,2020),招股说明书模糊信息对IPO首日收益的影响(张飞等,2020),以及招股说明书字数和用词对众筹结果的影响(申芷菡,2021)。此外,胡志强等(2021)以招股说明书文本信息披露的更新为切入点,分析了审核问询对IPO市场表现的影响。
2.1.2 财经媒体报道文本
新闻媒体发布的新闻报道、深度评论和分析报告包含大量的文本信息。这些信息与宏观经济、金融市场、个别行业和企业密切相关。宏观经济和金融市场的文本信息更适合市场整体的研究,如Garcia(2013)、Tetlock(2007)研究美国两大报纸《华尔街日报》和《纽约时报》上的经济学和金融新闻对股票市场的影响。特定于某一行业或企业的新闻报道则更适合于公司层面的股票价格、收益率、交易量等微观层面的研究,引起了研究者的广泛关注(Huang et al.,2012;Engelberg et al.,2012;Ferguson et al.,2015;Sinha, 2016;Twedt and Rees, 2012)。
媒体报道文本不仅可以用来分析媒体情绪和媒体关注度(Gurun and Butler, 2012;Frank and Sanati, 2018;Baloria and Heese, 2018;Hillert et al.,2014;Allee and DeAngelis, 2015;Kogan et al.,2019),还可以研究经济政策不确定性(Baker et al.,2016;Gulen and Ion, 2016;Manela and Moreira, 2017;Bonaime et al.,2018),以及媒体偏向、谣言和假新闻(Gurun and Butler, 2012;Ahern and Sosyura, 2015;Kogan et al.,2019)。
中国证监会规定上市公司必须在《上海证券报》《中国证券报》《证券时报》《金融时报》《经济日报》《中国改革报》《中国日报》《证券市场周刊》“七报一刊”中公布企业重大信息。中国还拥有新华网、和讯网、新浪财经、搜狐财经等网络新闻媒体。这些传统纸质媒体和网络媒体均提供了丰富的报道信息。饶育蕾等(2010)根据新华网、人民网等77家网络媒体的新闻报道,基于新闻条数构建了媒体注意力指数。游家兴等(2012)以知名度和权威性较高的8家财经报纸为研究文本,发现媒体情绪越高涨或越低落时,资产定价偏误的现象越严重。汪昌云等(2015)基于四大财经媒体以及两大专业金融媒体,发现媒体负面语气的下降会提高IPO抑价率、IPO超募资金比例和承销商费用占比。聂左玲等(2017)运用内容分析法定量分析了9家财经媒体对这些公司的报道语调与公司会计收益之间的关系,发现根据财经报道中的负面词比率可以预测公司收益。王靖一等(2018)基于和讯网新闻文本数据,研究了网络媒体情绪对网贷市场的影响,发现网络媒体的关注度情绪可以促进网贷平台的交易量。Huang和Luk(2020)利用中国多家报纸构建了新的并且频率更高的中国EPU指数,发现媒体偏见对指数的质量没有显著影响。支晓强等(2021)发现媒体报道语调越积极,公司持有的现金越多。
2.1.3 分析师报告文本
分析师是资本市场的重要参与者,也是沟通上市公司与投资者的信息中介。分析师的行为会对市场、投资者以及上市公司产生显著影响,而研究报告则是发挥作用的最主要手段。Huang等(2014)研究了分析师报告的语调特征,发现投资者对负面消息的反应比正面消息更强烈,这表明分析师在传播坏消息时尤为重要。De Franco等(2014)以债券分析师报告为样本,发现负面语调与债券交易量的增加和更高的债券发行收益均有一定的关系。De Franco等(2015)发现分析师报告可读性越强,目标公司在短期时间窗口内的交易量就越高。
国内学者围绕分析师报告的文本特征进行了大量研究,如语调、可读性、相似性等。在分析师报告语调方面,伊志宏等(2019)研究了分析师报告负面信息披露对股价崩盘风险的影响,发现负面信息披露能够降低股价崩盘风险;朱琳等(2021)发现分析师报告负面信息披露与股价特质性波动显著负相关;王永海等(2019)考察了异常审计费用对分析师报告语调的影响,研究发现当公司存在异常审计费用时,分析师会在后一年降低分析师报告中的积极语调,表明分析师对异常审计费用持消极态度;吴武清等(2020)利用朴素贝叶斯方法测量分析师报告的文本语调,并发现分析师积极的文本语调显著降低了所追踪公司的股价同步性。在分析师报告的相似性特征方面,刘昌阳等(2020)利用公司之间产品相似性测量其面临的产品市场竞争程度,并以分析师报告文本相似程度测量分析师报告增量信息含量,研究了竞争环境对分析师报告信息供给的影响,发现公司面临的竞争越激烈,分析师报告文本的信息含量越高。此外,从信息有效性角度,任飞等(2020)利用文本向量化方法将分析师报告文本分解为“新”“旧”两种信息,并进一步用事件研究法分析了两种信息对异常收益和股价的影响。
2.1.4 社交网络文本
随着互联网的发展,在推特(Twitter)、脸书(Facebook)等社交网络平台上产生了大量的文本信息。国外研究发现,这些社交网络文本数据能够预测公司的股价波动和未来盈利。Green等(2019)发现Glassdoor社交平台上员工对雇主的评价可以预测企业的盈利能力和未预期盈余。Huang(2018)发现亚马逊购物平台中的消费者评论信息可以预测公司未来的股票收益。Blankespoor等(2014)发现公司利用推特社交网络平台发布新闻信息可以显著降低公司股票的买卖差价,提高交易深度。除了分析社交网络文本对股票市场的影响之外,还有一些研究分析了社交网络文本对投资者情绪的影响(Das and Chen, 2007;Renault, 2017;Cookson and Niessner, 2020)。这些研究是对社交网络文本影响股票市场研究的进一步扩展,因为社交网络文本就是通过影响投资者的认知决策来对股票市场产生影响的。
随着中国移动互联网的发展,新浪微博、微信等各类社交网络平台发展迅速,也产生了海量的社交网络文本数据,为研究者提供了丰富的素材。徐巍等(2016)发现上市公司在新浪微博披露信息会使公司当日股票超额回报和超额交易量显著增加。何贤杰等(2016)则对公司利用新浪微博社交平台的影响因素进行了分析,发现较高治理水平的公司开通新浪微博的概率越高,在微博社交平台发布的信息越多。罗琦等(2021)利用社交网络平台中的个体信息构建了反映个体投资者盈余乐观情绪的指标,发现投资者盈余乐观情绪越高,短期内股票价格被高估的程度越大。
2.1.5 网络论坛文本
各种网络论坛聚集了数以万计的对某种主题有着共同关注的网民。一方面,每天都有众多网民在互联网上写作和发布有关公司股票的各种帖子,另一方面,也有许多人在阅读互联网信息。这些信息包含潜在的有价值的见解、市场情绪、操纵行为以及对其他新闻来源的反应(Das and Chen, 2007),可能对金融市场产生重大影响。由于互联网信息主要来自个体交易者的意见,所以互联网表达的信息可能比公司或媒体表达的信息更加“喧闹”,包含更多的噪声或不合理的情绪。这既为研究者带来了剔除噪声的挑战,又为研究者提供了分析小型投资者情绪的重要机遇。Antweiler和Frank(2004)分析了雅虎财经论坛上关于道琼斯工业平均指数和道琼斯指数中的45家公司的消息;Das和Chen(2007)将样本进一步扩展为雅虎上所有公司的消息。Sabherwal等(2011)对The lion网站(1)每天讨论热度最高的十只股票进行研究,发现这些股票在上榜的前两天股价上涨而后两天股价却下跌。Huang等(2016)利用东方财富网股吧发帖信息,发现中国投资者也存在“本地偏见”现象。Jiang等(2019)同样利用东方财富网股吧数据,研究投资者沟通与公司资产波动之间的关系,发现在同一分论坛上讨论的股票,目标股票的收益率与相关股票之间存在显著的协动关系。Cookson和Niessner(2020)对美国股票论坛StockTwits上的发帖文本信息进行研究,发现投资者分歧可以有效预测股票市场中的异常交易量。
国内文献也对网络论坛中的文本数据进行了研究。孙书娜等(2018)根据雪球社区用户信息构建了日度超额雪球关注度指标,发现投资者关注在短期内会提高股票价格和股票交易量,但该影响会随着时间的推移而逐渐衰减。金秀等(2018)利用贝叶斯分类算法对新浪财经股吧的信息进行分类识别,进一步从三个维度构建了投资者情绪指数,研究了投资者情绪与上证指数的关系。姚加权等(2021)利用雪球论坛和东方财富网股吧中与上市公司相关的发帖文本信息,采用深度学习算法构建了社交媒体情绪指标,发现其能有效地预测上市公司股票的收益率、成交量、波动率和非预期盈余等市场因素。
2.1.6 网络搜索指数
网络搜索引擎是人类在使用互联网过程中最常用的工具。各类网络搜索引擎的搜索指数就成了反映人类搜索行为的重要指标。Da等(2011)以谷歌搜索引擎中每周对公司股票及其代码的搜索数量指数作为关注度的测量,发现更高关注度的股票在未来两周会有较大幅度的股价上涨,但随后又会发生反转。进一步地,Da等(2015)选择30个负面词作为特定搜索关键词并构建了FEARS指数,发现该指数能够预测股票市场短期收益逆转和暂时性波动。Chi和Shanthikumar(2017)通过搜索位置检验了投资者对不同地区股票的关注情况,发现投资者更倾向于关注本地的股票。Tantaopas等(2016)基于股票关键字的谷歌搜索指数衡量投资者关注度,发现较高的投资者关注度能够降低股票的回报率和波动性,提高市场效率。
百度是全球最大的中文搜索引擎,具有较好的代表性,所以国内网络搜索指数主要是利用百度搜索指数。俞庆进等(2012)利用百度搜索指数作为投资者关注度的代理指标,发现投资者关注对股票当期收益有正向价格压力,但会在短期内实现反转。此外,还有学者用特定关键词的搜索指数进行研究。如曾建光(2015)根据“余额宝被盗”的百度搜索指数作为投资者网络安全风险感知指标,发现投资者的互联网安全风险感知会增加其要求的风险补偿,并且移动端投资者的风险感知弱于电脑端投资者。
2.1.7 网络借贷文本
随着金融改革创新和网络金融的发展,P2P网络借贷在一段时期内发展迅速。因此,一些学者针对P2P网络借贷文本展开研究,主要包括可读性、语气和金融词汇等对借款成功率的影响。在可读性方面,可读性较强的借款描述有助于提高借款成功率(陈霄等,2018)。此外,借款描述中积极语气词汇和金融词汇的比重越高,借款的成功率越高;而借款描述中消极语气词汇比重、强语气词汇比重和弱语气词汇的比重越高,借款的成功率越低(彭红枫等,2018)。
2.1.8 其他文本
资本市场中的参与者众多,决定了文本信息的来源是多元化的。除了上述文本之外,还有许多其他类型的文本信息来源,如专利文本(Kelly et al.,2021;Chen et al.,2019)、CEO日志(Bandiera et al.,2020)、监管问询函(Ryans, 2021)、国家审计公告(王海林等,2019)、货币政策执行报告(王熙等,2021;姜富伟等,2021)、债券评级报告(潘怡麟等,2021)、实地调研问答文本(徐泽林等,2021)、基金年报与半年报文本(林树等,2021)、企业社会责任报告等。在国家审计公告方面,研究发现国家审计公告对企业真实盈余管理(王海林等,2019)、国有企业社会责任(潘俊等,2020)具有重要影响。在交易所监管问询函方面,发现交易所问询函能够降低并购间的信息不对称并降低并购绩效(李晓溪等,2019),同时不同能力的管理层收到问询函的概率有着明显差异,回复问询函的文本内容可读性也明显不同(王艳艳等,2020)。在社会责任报告方面,管理层权力与社会责任报告可读性显著正相关(吉利等,2016),女性高管对社会责任报告可读性具有显著的正向影响(黄珺等,2021),高管薪酬会影响企业社会责任报告中的印象管理行为,薪酬越高印象管理行为越显著(陈华等,2021)。企业社会责任报告语调也具有重要的经济后果,如会影响企业的股价崩盘风险(黄萍萍等,2020)、投资者感知的社会责任(张继勋等,2019)。