第2章 股票大数据挖掘
2.1 股票大数据
2.1.1 大数据概述
1.大数据的概念
随着信息技术的高速发展、数据库管理系统的广泛应用,人们积累的数据量急剧增长,大量的信息给人们带来方便的同时,也带来了诸如信息过量难以消化、信息真假难以辨识、信息安全难以保证、信息形式不一致难以统一处理等问题。
大数据(Big Data),最早出现于20世纪90年代。近年来,大数据成为信息技术学术界与产业界热论的焦点。如何对大数据进行充分和有效的分析和挖掘,使之转换为有价值的信息和知识,用于解决各种科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新制高点。
狭义的大数据概念,主要是指大数据技术及其应用,是指从各种类型的数据中快速获得有价值信息的能力。一方面,强调从海量数据、多样数据里提取微价值,即具有价值特征;另一方面,强调数据获取、数据传递、数据处理、数据利用等层面的高速和高效,即具有快速处理特征。
广义的大数据概念,除了大数据技术及其应用之外,还包括大数据工程和大数据科学。大数据工程,是指大数据的规划建设运营管理的系统工程。大数据科学,主要关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
2.大数据的特征
大数据具有4V的特征,具体为:
(1)规模性(volume)。规模性指的是数据巨大的数据量及其规模的完整性。数据的存储由TB扩大到ZB。数据加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得数据产生量和存储量成倍增长。实质上,在某种程度上说,数据的数量级大小并不重要,重要的是数据的完整性。
(2)高速性(velocity)。高速性主要表现为数据流和大数据的移动性,可以理解为更快地满足实时性的需求。随着移动网络的发展,人们对数据的实时应用需求更加普遍,例如通过手持终端设备关注天气、交通、物流等信息。高速性要求具有时间敏感性和决策性的分析,能在第一时间抓住重要事件发生的信息。
(3)多样性(variety)。多样性指有多种途径来源的关系型和非关系型数据,这也意味着要在海量、种类繁多的数据间发现其内在关联。在互联网时代,各种设备连成一个整体,个人在这个整体中既是信息的收集者也是信息的传播者,加速了数据量的爆炸式增长和信息的多样性。这就必然促使人们要在各种各样的数据中发现数据信息之间的相互关联,把看似无用的信息转变为有用的信息,从而做出正确的判断。
(4)价值性(value)。价值性体现出的是大数据运用的真实意义所在,其价值具有稀缺性、不确定性和多样性等特点。大数据时代数据的价值就像沙子淘金,数据量越大,里面真正有价值的东西就越少。现在的任务就是利用云计算、智能化开源实现平台等技术,在这些ZB、PB级的数据中提取出有价值的信息,将信息转化为知识,发现规律,最终用知识促成正确的决策和行动。
3.大数据的应用
发展大数据产业将推动世界经济的发展方式由粗放型到集约型的转变,对于提升企业综合竞争力和政府的管制能力都具有深远意义的影响。将大量的原始数据汇集在一起,通过智能分析、数据挖掘等技术,分析数据中潜在的规律,预测事物后续的发展趋势,有助于人们做出正确的决策,从而提高各个领域的运行效率,取得更大的收益。下面介绍一些典型应用。
1)商业领域的应用
商业是大数据应用最广泛的领域。例如,沃尔玛公司通过对消费者购物行为等各种数据进行分析,了解顾客购物习惯,从销售数据分析适合搭配在一起购买的商品,创造了“啤酒+尿布”的经典商业案例;淘宝服务于卖家的大数据平台“淘宝数据魔方”通过收集分析买家的购物行为,找出问题的先兆以避免“恶拍”事件发生,同时还针对买家设置大数据平台,为买家量身打造完善的网购体验的产品。
2)金融领域的应用
大数据在金融业也有着相当重要的作用。华尔街某公司分析全球3.4亿微博账户的留言,判断民众情绪,依此决定公司股票的买入或卖出;美国某征信公司其存储的财务数据覆盖了所有的美国成年人,包括全球5亿个消费者和8100万家企业。在它的数据库中与财务有关的记录包括贷款申请、租赁、房地产、购买零售商品、纳税申报、费用缴付、报纸与杂志订阅等,看似杂乱无章的26PB的数据,经过交叉分享和索引处理,得出消费者的个人信用评分,从而推断客户支付意向与支付能力,发现潜在的欺诈。
3)医疗领域的应用
随着大数据在医疗与生命科学研究过程中广泛应用和不断扩展,产生的数据之大、种类之多令人难以置信。例如医院中的B超、PACS影像、病理分析等业务会产生大量非结构化数据。一幅CT图像的存储量大约500MB,一个基因组序列文件约为750MB,一个标准病理图的数据量则接近5GB。如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院就可以累积达数TB甚至PB级的结构化和非结构化数据。为了实现医院之间对病患信息的共享,各级医院加大了在大数据平台、医疗信息仓库等领域的投入,医疗信息存储越来越受到重视。
4)制造业领域的应用
中国制造业的相关企业随着ERP、PLM等信息化系统的部署完成,管理方式由粗放式管理逐步走向精细化管理,新产品的研发速度和设计效率有了大幅提升,企业在实现对业务数据进行有效管理的同时,积累了大量的数据信息,产生了利用现代信息技术收集、管理和展示分析结构化和非结构化的数据和信息的诉求,企业需要信息化技术帮助决策者在存储的海量信息中挖掘出需要的信息,并且对这些信息进行分析,通过分析工具加快报表进程从而推动决策、规避风险。
4.大数据的挑战
随着近年来大数据热潮的不断升温,人们认识到“大数据”并非是指“大规模的数据”,更加代表了其本质含义:思维、商业和管理领域前所未有的大变革。在这次变革中,大数据的出现,对产业界、学术界和教育界都正在产生巨大影响。随着科学家们对大数据研究的不断深入,人们越来越意识到,对数据的利用为其生产生活带来巨大便利的同时,也带来了不小的挑战。
1)大数据的安全与隐私问题
随着大数据的发展,数据的来源和应用领域越来越广泛:在互联网上随意浏览网页,就会留下一连串浏览痕迹;在网络中登录相关网站需要输入个人的重要信息,例如用户名密码、身份证号、手机号、住址、银行卡密码等;随处可见的摄像头和传感器会记录下个人的行为和位置信息,等等。通过相关的数据分析,数据专家就可以轻易挖掘出人们的行为习惯和个人重要信息。如果这些信息运用得当,可以帮助相关领域的企业随时了解客户的需求和习惯,便于企业调整相应的产品生产计划,取得更大的经济效益;但若是这些重要的信息被不良分子窃取,随之而来的就是个人信息、财产等的安全性问题。
此外,大数据时代数据的更新变化速度加快,而一般的数据隐私保护技术大都基于静态数据保护,这就给隐私保护带来了新的挑战。在复杂变化的条件下如何实现数据隐私安全的保护,将是未来大数据研究的重点方向之一。
2)大数据的集成与管理问题
纵观大数据的发展历程,大数据的来源与应用越来越广泛,为了把散布于不同的数据管理系统的数据收集起来统一整理,就有必要进行数据的集成与管理。虽然对数据的集成和管理已经有了很多方法,但是传统的数据存储方法已经不能满足大数据时代数据的处理需求,这就面临着新的挑战。
(1)数据存储方面。在大数据时代,大数据的特征之一就是数据类型的多样性。数据类型由传统的结构化数据逐渐转变为半结构化、非结构化数据。另外数据的来源也逐渐多样化,传统的数据大都来自于少部分军事企业或是研究所的计算机终端;现在随着互联网和移动设备在全球的普及,平板电脑、手机、GPS等产生的数据呈“井喷”状态,因此,数据的存储就显得格外重要。由前文可看出,传统的数据存储方式已经不足以满足现在的数据存储需求,为了应对越来越多的海量数据和日渐复杂的数据结构,很多公司都着手研发适用于大数据时代的分布式文件系统和分布式并行数据库,如HDFS、BigTable等。在数据存储过程中,数据格式的转换是必要的,而且是非常关键和复杂的,这就对数据存储系统提出了更高的要求。
(2)数据清洗方面。大数据时代数据的特征“Value”,是大数据低价值密度的体现。也就是说,大数据量并不意味着大信息量,很多时候它意味着冗余数据的增多、垃圾价值的泛滥。因此,对数据进行筛选、清理是十分必要的,否则过多的干扰信息一方面会占据大量的存储空间,造成存储资源的浪费,另一方面这些垃圾数据会对真正有用的信息造成干扰,影响数据分析结果。大数据时代的数据清洗过程必须更加细致和专业,即在数据清洗过程中,既不能清洗得过细,因为这会增加数据清洗的复杂度,甚至有可能会把有用的信息过滤掉;也不能清洗得不细致,因为要保证数据筛选的效果。
3)大数据的IT技术架构问题
大数据因其独特的特征对数据分析处理系统提出了极高的要求,无论是存储、传输还是计算,在大数据分析技术平台上,将会是一个技术的激烈交锋。因为现有的大数据平台技术难以满足大数据的处理需求,所以IT架构的革命性重构势在必行。
(1)大数据分析技术方面。目前来看,海量数据中超过85%的数据都是半结构化和非结构化的数据,传统的关系型数据库已经无法处理。以Map-Reduce和Hadoop为代表的非关系型数据库的非关系型分析技术,因其具有良好的横向扩展能力而在大数据分析领域得到了广泛应用,现已成为大数据处理的主流技术。尽管这样,Map-Reduce和Hadoop在性能方面依然不能尽如人意,还需根据实际应用情况不断更新,研发更高效、更实用的大数据分析技术。
(2)数据融合方面。大数据时代数据的数量和质量都达到了一个前所未有的状态,但是若没有一个很好的技术将这些“一盘散沙”的数据充分整合,就无法最大化地发挥大数据的价值,因此大数据处理技术面临的一个重要问题就是如何将个人、企业和政府的各种信息数据加以融合。因为这些数据的格式基本都不一致,这就给数据融合带来了相当大的困难。为了解决这个问题,需要研究推广不与平台绑定的数据格式,用这样一种统一的数据格式,将人类社会、物理世界和网络空间联系起来,构建统一的信息系统。
(3)大数据能耗问题方面。大数据的处理、存储和通信都要消耗相当大的能源,在能源价格上涨迅速的今天,由于数据的存储规模不断扩大,高能耗已经逐渐成为制约大数据快速发展的瓶颈之一。由于大数据的发展刚刚起步,能耗问题未能得到足够的重视。为了减少不必要的能源消耗,首先可以运用低功耗的硬件资源,如闪存、PCM等,这些新型存储硬件的功耗相对传统磁盘等硬件要低很多;另外随着世界能源的消耗量越来越大,“第三次工业革命”浪潮也迅速席卷全球,可以考虑引入新型可再生能源,如传统的电能可以用太阳能、风能、生化能等产生,避免使用传统的不可再生能源如煤炭、石油等,既节约了能源又减少了环境污染。
4)大数据的生态环境问题
大数据的生态环境问题首先涉及的是数据资源管理和共享的问题。这是一个信息化开放的时代,互联网的开放式结构使人们可以在地球的不同角落同时共享所有的网络资源,这给科研工作带来了极大的便利。但是并不是所有的数据都是可以被无条件共享的,有些数据因为其特殊的价值属性而被法律保护起来不能随意被无条件利用。由于现在相关的法律措施还不够健全,还缺乏足够强的数据保护意识,所以总会出现数据信息被盗用或是数据所有权归属的问题,这既有技术问题也有法律问题。如何在保护多方利益的前提下解决数据共享问题将是大数据时代的一大重要挑战。
大数据时代,数据的产生和应用领域已经不局限于某几个特殊的场合,几乎所有的领域如政治、经济、社会、科学、法律等都能看到大数据的身影,因此涉及这些领域的数据交叉问题就不可避免。随着大数据影响力的深入,大数据的分析结果势必将会对国家治理模式,企业的决策、组织和业务流程,个人生活方式等产生巨大的影响,而这种影响模式是值得以后深入研究的。
2.1.2 大数据的处理
大数据时代,是数据为王的时代。但是大数据不只是指海量的信息,更强调的是人类对信息的筛选处理。图2-1(a)和(b)可以用来形象地比喻大数据:一幅是整整齐齐的稻草堆,另外一幅是稻草中缝衣针的特写。其寓意是通过大数据技术的帮助,可以在稻草堆中找到你所需要的东西,哪怕是一枚小小的缝衣针。这两幅图揭示了大数据技术一个很重要的特点:价值的稀疏性。所以大数据的处理,也就是在海量数据中淘金的过程。
大数据的处理方法有很多,普遍适用的大数据处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。
图2-1 大数据的形象比喻
(a)稻草堆;(b)稻草堆中的缝衣针
1.采集
大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库进行简单的查询和处理工作。例如,电商会使用传统的关系型数据库(MySQL、Oracle、SQL Server、DB2等)存储每一笔事务数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,例如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上千万,所以需要在采集端部署大量数据库才能支撑,并且如何在这些数据库之间进行负载均衡和分片,需要深入思考和设计。
2.导入和预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入和预处理过程的特点和挑战主要是导入的数据量大,每秒的导入量经常会达到百兆,甚至千兆级别。
3.统计和分析
统计和分析主要利用分布式数据库,或者分布式计算集群对存储于其内部的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。在这方面,一些实时性需求会用到EMC的Greenplum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理或者基于半结构化数据的需求可以使用Hadoop。统计和分析部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
4.挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes等,主要使用的工具有Hadoop的Mahout等。
2.1.3 大数据炒股
1.数据挖掘在股票市场的适用性
我国股票市场有以下特点从而比较适合采用数据挖掘的方法:首先,我国股票市场有大量的、丰富的、充足的但又隐蔽、比较繁杂的数据。我国股票市场从成立至今,经过了几十年的发展,规模日渐变大,交易日每天时时刻刻都会产生巨大海量的数据,包括各只股票每天的开盘价、收盘价、股票价格变化等数据,这些都是我们进行股票分析必不可少的数据。其次,我国有数量庞大的上市公司,上市公司会定期披露其财务信息,包括盈利能力、运营能力、偿债能力、发展能力、现金流等各指标的数据,这些指标又可以细分为更多的详细的指标,而这些公布的财务指标往往对判断股票的投资价值具有很大的帮助。第三,我国股民数量众多,还包括一些基金投资者、资产管理公司、券商等机构,每天都会产生海量的交易信息以及巨大量的和股票相关的信息。此外,还有各种宏观经济、行业走向等各种数据的产生都是研究股票价值的重要参考信息。
对股票进行研究分析,不可避免的就是要对以上各方面纷繁复杂的数据信息进行收集、汇总以及分析处理。而同时这些海量的数据中又蕴藏着一些隐蔽的规律,留待投资者去分析、研究和处理,如何从庞大且复杂的数据中去提取重要的信息并发现其中的规律呢?数据挖掘技术正适合去处理这样的数据。就像从茫茫矿山中去挖取金子一样,数据挖掘技术就是要从纷繁复杂的股市数据中挖掘出有利于投资者的信息,从而帮助投资者做出更为准确有效的判断。因此,从股市数据的特点分析,数据挖掘技术很适合运用于股票市场的分析。
2.数据挖掘在股票分析中的应用
目前我国证券交易所已经基本部署了前台POS系统和后台MIS系统。随着交易的不断进行,POS系统和MIS系统记录了大量的客户交易数据和行情交易数据,如何有效地利用这些数据?其中真正有价值的信息是哪些?这些信息之间有哪些关联?为了回答这些问题就需要对大量的数据进行深层分析,从而获得有利于商业运作、提高竞争力的信息。
股票市场的数据挖掘,简单来讲就是从股票市场的大量数据信息中,通过知识发现技术,发掘有兴趣的模式或知识,满足股票投资者的应用要求。数据挖掘技术可以对上述交易数据进行综合分析,分析结果将产生各种的分类图表,为企业经营者和投资者提供参考和决策依据,如图2-2所示。
图2-2 在证券行业的数据挖掘
目前比较热门的挖掘主题研究主要有:
(1)证券市场关联分析。证券市场与汇率、利率、国民经济发展的关联分析;单一证券和整个证券市场的关联分析;市场指数设计是否合理,哪些指数更符合市场规律。
(2)信息效率市场。证券价格能否反映所有的信息,验证中国证券市场的效率。
(3)技术指标分析。证券市场各种技术指标的合理性和有效性。对各指标进行排序和分类,研究其对股票操作的重要程度。
(4)在线多维分析。基于OLAP技术,在线成交量分析、板块分析,预测结果验证等。
(5)股票技术分析。基于序列模式方法,研究股价的变化规律、未来行情走势,辅助投资者决策。
(6)股票定价。分析未来股票发行和上市价格的合理定位,确定金融衍生品的价格。
(7)股票关联分析。探讨股票价格之间的关联度,不同板块、行业的股票关联分析,同一板块之间的股票关联分析。
(8)个股选择分析。对股票做聚类研究,合理分类。
(9)公司评价。上市公司价值、上市公司细分、上市公司信用评级。
(10)投资组合。探讨不同投资组合的效果,对股票做聚类、关联研究,提出合理的投资组合。
(11)投资评价。对不同的投资组合做出收益和风险的评价。
数据挖掘技术在证券领域中的应用,就是将证券交易所内实时更新的海量数据及时提取出来,采用分类、聚类、关联分析等方法,清洗和变换数据发现新知识,及时为投资人员提供参考咨询服务、分析客户交易行为、掌握企业经营状况、控制证券交易风险,从而帮助投资人员在证券交易中增强决策的智能性和前瞻性。
3.大数据炒股案例
如何利用大数据炒股呢?具体来讲,在资本市场中,传统的技术分析主要是“量价分析”,分析对象是股价和成交量,看均线、RSI、OBV等。而通过“大数据”分析市场,显然是量价之外的技术“第三维”,即包括量化非结构化的信息(政策文件、自然事件、地理环境、科技创新等)以及市场情绪(通过计算机对新闻、研究报告、社交信息、搜索行为等分析得到)度量股价变动因素,有效预测未来股市活跃度及股价走势的变化。
随着互联网技术的发展,资本市场的跨界合作如火如荼地进行着。2014年7月,中证指数有限公司、百度、广发基金管理有限公司跨界合作,宣布推出“中证百度百发策略100指数”。这是国内首只互联网大数据金融市场指数和首个可直接反映市场情绪的指数。此次三方的跨界合作,成为互联网金融向纵深发展的创新标杆,同时颠覆性地改造了传统股票市场指数编制方法和量化投资的方法。
中证百度百发策略100指数以2008年12月31日为基日,以该日收盘后所有样本股的调整市值为基期,以1000点为基点,该炒股模型除了运用百度提供的用户搜索和行为数据指标之外,还融入了8个财务指标的财务因子、动量因子和动量反转策略两大数据,筛选出100只基本面好、成长空间良好,能反映未来一个月内市场行业轮动热点的样本股。另一方面,新浪财经与东方基金也以不甘落后的态势推出财经大数据策略指数,通过新闻、评论、微博、单击量和单击路径等多方位途径量化“民意”,测量股票“热度”,并衡量其成长估值指标后,再遴选个股纳入指数。
4.大数据炒股存在的问题
华尔街曾利用股票大数据赚了很多钱,当然随后也亏了很多钱。这个领域的代表就是由两位诺贝尔经济学奖得主创办的长期资本管理公司(LTCM)。长期资本管理公司以“不同市场证券间不合理价差生灭自然性”为基础,制定了“通过计算机精密计算,发现不正常市场价格差,资金杠杆放大,入市图利”的投资策略。斯科尔斯和默顿将金融市场历史交易资料,已有的市场理论、学术研究报告和市场信息有机结合在一起,形成了一套较完整的计算机数学自动投资模型。他们利用计算机处理大量历史数据,通过连续而精密的计算得到两种不同金融工具间的正常历史价格差,然后结合市场信息分析它们之间的最新价格差。如果两者出现偏差,并且该偏差正在放大,计算机立即建立起庞大的债券和衍生工具组合,大举套利入市投资;经过市场一段时间调节,放大的偏差会自动恢复到正常轨迹上,此时计算机指令平仓离场,获取偏差的差值。
但是模型假设前提和计算结果都是在历史统计基础上得出的,历史统计永不可能完全涵盖未来现象;LTCM投资策略是建立在投资组合中两种证券的价格波动的正相关的基础上。尽管它所持核心资产德国债券与意大利债券正相关性为大量历史统计数据所证明,但是历史数据的统计过程往往会忽略一些小概率事件,亦即上述两种债券的负相关。它们基于大数据统计的套利模型在遭遇了亚洲金融危机、俄罗斯债券危机这样的“非常态事件”后,半年内亏了近43亿美元,最后被迫由美联储接管。
通过上述华尔街长期资本管理公司的案例分析,可知大数据炒股也是存在风险的。大数据炒股的缺陷具体如下:
(1)在收集并判断用户情绪的过程中,计算机对于语意的理解存在不准确的情况。有的人在表达的过程中,会直抒胸臆,而有的人而会使用反语、双关语等间接的方式表达等。目前,不自然语意的语义分析技术尚不成熟,如果仅是通过搜索关键词分析,可能会漏掉一些表意不明的用户情绪,造成分析的误差。
(2)大数据讲求相关性而非因果。大数据通过分析用户的搜索量以及情绪预测股票走势。虽然有数据表明用户的搜索量和热情程度与股价的走势有较高的相关性,但是并不能说明这两者之间有因果关系。用户的搜索量高不一定就必然导致股价的上升,因为关注度不一定带来股票的需求。
(3)在个股的分析中难以排除人为制造的扰动。如果是在一篮子股票中,分析结果取决于所有关键字的加权搜索量和众多用户的不同反应,某个关键字的搜索量变动对整体数据分析结果的影响或许是较小的,对股价的预期走势也不会产生过大的影响;但是当分析个股时,如果“水军”故意刷关键字,提高了某个关键字的搜索量,会在很大程度上影响数据分析结果。
(4)大数据炒股具有一定的滞后性。大数据利用搜索量和用户的情绪分析进行股价的预期,当有大量用户在搜索某个关键词时,说明这个关键词的热度已经达到了一定的程度,低价买入的用户已经完成了买入操作,股价已经涨上去了。此时再进行买入操作,股价的上升空间很小,甚至已经达到了顶峰,或者已经开始进入下降阶段。