论文编译｜假新闻对股价影响更大？-清华大学新闻与传播学院经济传播研究中心

学术研究

当前位置: 网站首页 > 学术研究 > 学术论文 > 正文

论文编译｜假新闻对股价影响更大？

题目：Fake News, Investor Attention, and Market Reaction

作者：Jonathan Clarke, Hailiang Chen, Ding Du, Yu Jeffrey Hu

来源：Information Systems Research

摘要

相较于真新闻，假新闻是否吸引了更多投资者的关注，以及是否造成了股票价格更大的波动？本文利用机器学习、算法分析、新闻报道的语言特征来精准识别假新闻，发现资本市场具有对真假新闻进行正确定价的能力，即虽然假新闻发布时的异常交易量有所增加，但是增幅显著低于真新闻，而且对股价的影响力也更小。

研究背景

近年来，社交媒体上的假新闻泛滥引起了全球广泛关注。例如，Facebook和Twitter都因传播的新闻被证伪而备受指责。据估计，仅2016年大选期间的假新闻就触及了超过1.26亿美国人。研究显示，半数接触假新闻的人会信以为真，其教育水平、年龄和媒体消费量与识别新闻可信度的能力相关。

资本市场中，以Galena Biopharma（股票代码GALE）为例，其与Lidingo Holdings合作发布了虚假的看涨公司股票的报告。作者通过在报告发布前购入股票，发布后立即卖出获利。在2011至2014年间，Lidingo通过撰写假新闻文章赚取了超过100万美元。

2017年美国证券交易委员会（SEC）采取了措施规范股票推广行为，揭露了27名股票推广者发布的假新闻文章，这些文章通过Seeking Alpha等平台传播，目的是操纵股价。然而，这种假新闻对金融市场的影响目前尚不明确。本研究以此为契机，分析假新闻在金融市场中的表现及其对投资者注意力和股票价格的影响。

研究假设

基于过往文献，研究提出以下研究假设，并拟于后文进行验证：

假设1：假新闻比真新闻更引人关注。

假设2：假新闻可以根据报道的语言特征被识别。

假设3：真新闻会比假新闻带来更大的交易量。

假设4：假新闻造成的股价异常波动会小于真新闻。

研究方法

数据来源上，本文选择了Seeking Alpha这个社交媒体网站。美国证券交易委员会（SEC）在2017年4月10日的执法行动中公布了492篇虚假股票新闻，这些新闻是在2011年8月16日至2014年3月10日间发布在13个金融网站上，其中Seeking Alpha（SA）网站上的假新闻最多。

本研究爬取了SA网站上2011年8月16日至2014年3月10日期间全部的157636篇新闻报道，其中383篇被SEC认定为假新闻，因此假设剩余的157253篇新闻报道为真新闻。每篇文章的标题、正文、日期、ID、作者、长度以及涉及的股票都已同时获取。初步分析显示，假新闻平均长度更长，情绪更加积极。

投资者关注方面，本研究设计的指标包括：页面浏览量（PV）、独立访客数、完读数以及评论数据。初步分析显示，假新闻会带来更多的页面浏览，更多的独立访客，并且完读率更高，但是假新闻的评论阅读量较少。

评论者和编辑对假新闻的识别和反应方面，本研究重点关注了假新闻评论数、评论与文章主旨的一致性。SA网站有编辑打分，主要依据信息准确性和内容可读性，从编辑的角度表达对新闻报道潜在质量的评价。

异常回报和异常交易量方面，本研究使用标准事件研究法来预估新闻发布后第t天的超额收益和异常交易量，短期异常回报观察1至2天的窗口期，长期则观察事件后3至120天的窗口期。

具体异常回报的计算公式如下：

Areti,t是异常回报，rReti,t 是实际回报，Retm,t 是根据美国证券价格研究中心给出的价值加权指数回报。

本文作者也收集了所涉公司的市值规模、市净率、资产回报率和杠杆率，以及传统媒体对所涉公司的报道、金融分析师评价和财务报告带来的股价变动影响。

假设验证

假设1

针对假设1，本研究对比了假新闻和真新闻发布后7天内的网页浏览量、投资者用户浏览数、完读率和评论数，并以此考察投资者对两者的关注度差异。具体结果如下图所示。

研究者分析数据后发现，假新闻的网页阅读量、投资者用户浏览数和完读率都在1%的水平上，和真新闻的对应数据指标具有显著差异，其中假新闻的文章平均浏览量比真新闻多出83.4%，进而验证了假设1，假新闻相对于真新闻更能够吸引投资者的注意。

根据评论数量的分析作者发现，假新闻虽然会吸引更多的阅读量，但是并不会引发更多的读者讨论，即真假新闻在评论数上的表现并不存在显著差异。

图1 假设1验证结果

假设2

针对假设2，本研究基于LIWC2015软件的93个输出变量，使用了6种分类算法，包括梯度推进、逻辑回归、朴素贝叶斯、神经网络、随机森林和支持向量机，由此形成一个训练分类器，并编写了一个Python程序来运行训练。预测试后研究者发现，该分类算法的准确率达到了87.1%。

由此得到，根据假新闻和真新闻在语言风格上的不同表现，能够利用研究中所使用的分类算法来对真假新闻进行甄别，支持了假设2。具体而言，研究者发现：文章长度和每句话的字数是各项指标中最重要的特征。假新闻长度更长，每句话也用到了更多的词汇，以使其看起来更具有说服力和可信性，而且假新闻比真新闻更少提及数字和金钱，同时还更少使用第一人称复数形式。

图2 假设2验证结果

假设3

针对假设3，本研究先初步比较了在窗口期[0, +5]内(即新闻发布日至发布后5天内的时间段)，假新闻和真实新闻所涉及股票的每日异常交易量，其中第0天对应于Seeking Alpha上新闻的发布日期。结果展示：假新闻文章在第0天产生了统计意义上显著的异常交易量，但是其异常交易量显著低于观察到的真实新闻文章后的异常交易量，支持了假设3。

研究对不同窗口期下的市场异常交易量做了进一步的验证发现，在[0,+1]、[0,+2]、[+3,+120]、[+3,+242]的四个窗口期内，假新闻异常交易量仍然显著地抵御真实新闻所带来的异常交易量，从短期、中期和长期的各个时间段维度支持了假设3。

图3 假设3验证结果

假设4

针对假设4，研究同样在[0,+1]、[0,+2]、[+3,+120]、[+3,+242]的四个窗口期考察真假新闻发布后的股价异常波动幅度，并对文章特征、其他事件因素、公司特征和行业季度效应的因素进行了控制。数据分析后发现，假新闻所造成的异常收益率仍然显著低于真新闻所带来的影响，与假设4保持一致。

图4 假设4验证结果

结论

本研究探讨了投资者对美国证券交易委员会（SEC）标记的假新闻文章的关注程度及其对股票价格的影响。研究集中于Seeking Alpha网站上的假新闻，发现这些文章吸引了显著高于真新闻的投资者关注，表现为页面浏览量高出约83.4%。

尽管如此，研究发现评论的读者和编辑难以有效识别假新闻。因此，本研究转向机器学习技术，通过分析语言风格和LIWC语言特征，成功区分了假新闻与真实新闻。梯度提升分类器在这一过程中表现最佳，平均准确率指标达到88.7%，这表明语言风格是识别假新闻的有效指标。

此外，假新闻引起的交易量和收益率反应均显著低于真实新闻，表明市场对假新闻有一定的辨识能力。然而，本研究存在局限，如样本规模较小且偏向微型股，未能涵盖大型公司股票。这些限制了本研究对假新闻在更广泛市场影响的理解，为未来的研究提供了方向。

综上所述，虽然假新闻在社交媒体上广泛传播，但其对股票市场的影响有限，市场似乎能够对此类信息进行一定程度的筛选。该研究结果对于理解假新闻的经济影响及其在金融市场中的角色具有重要意义。