R语言
上QQ阅读APP看书,第一时间看更新

总序

短短几年间,大数据就以一日千里的发展速度快速实现了从概念到落地,直接带动了相关产业的井喷式发展。数据采集、数据存储、数据挖掘、数据分析等大数据技术在越来越多的行业中得到应用,随之而来的就是大数据人才缺口问题的凸显。根据《人民日报》的报道,未来3~5年,中国需要180万名数据人才,但目前只有约30万人,人才缺口达到150万名之多。

大数据是一门实践性很强的学科,在其呈现金字塔型的人才资源模型中,数据科学家居于塔尖位置,然而该领域对于经验丰富的数据科学家需求相对有限,反而是对大数据底层设计、数据清洗、数据挖掘及大数据安全等相关人才的需求急剧上升,可以说占据了大数据人才需求的80%以上。比如数据清洗、数据挖掘等相关职位,需要源源不断的大量专业人才。

巨大的人才需求直接催热了相应的大数据应用专业。2018年1月18日,教育部公布“大数据技术与应用”专业备案和审批结果,已有270所高职院校申报开设“大数据技术与应用”专业,其中共有208所职业院校获批“大数据技术与应用”专业。随着大数据的深入发展,未来几年申请与获批该专业的职业院校数量仍将持续走高。同时,对于国家教育部正式设立的“数据科学与大数据技术”本科新专业,在已获批的35所大学之外,2017年申请院校也高达263所。

即使如此,就目前而言,在大数据人才培养和大数据课程建设方面,大部分专科院校仍然处于起步阶段,需要探索的问题还有很多。首先,大数据是个新生事物,懂大数据的老师少之又少,院校缺“人”;其次,院校尚未形成完善的大数据人才培养和课程体系,缺乏“机制”;再次,大数据实验需要为每位学生提供集群计算机,院校缺“机器”;最后,院校没有海量数据,开展大数据教学实验工作缺少“原材料”。

对于注重实操的“大数据技术与应用”专业专科建设而言,需要重点面向网络爬虫、大数据分析、大数据开发、大数据可视化、大数据运维工程师的工作岗位,帮助学生掌握大数据技术与应用专业必备知识,使其具备大数据采集、存储、清洗、分析、开发及系统维护的专业能力和技能,成为能够服务区域经济的发展型、创新型或复合型技术技能人才。无论是缺“人”、缺“机制”、缺“机器”,还是缺少“原材料”,最终都难以培养出合格的大数据人才。

其实,早在网格计算和云计算兴起时,我国科技工作者就曾遇到过类似的挑战,我有幸参与了这些问题的解决过程。为了解决网格计算问题,我在清华大学读博期间,于2001年创办了中国网格信息中转站网站,每天花几个小时收集和分享有价值的资料给学术界,此后我也多次筹办和主持全国性的网格计算学术会议,进行信息传递与知识分享。2002年,我与其他专家合作的《网格计算》教材正式面世。

2008年,当云计算开始萌芽之时,我创办了中国云计算网站(在各大搜索引擎“云计算”关键词中排名名列前茅),2010年出版了《云计算》,2011年出版了《云计算》(第2版),2015年出版了《云计算》(第3版),每一版都花费了大量成本制作并免费分享了对应的几十个教学PPT。目前,这些PPT的下载总量达到了几百万次之多。同时,《云计算》一书也成为国内高校的优秀教材,在中国知网公布的高被引图书名单中,《云计算》在自动化和计算机领域排名全国第一。

除了资料分享,在2010年,我们也在南京组织了全国高校云计算师资培训班,培养了国内第一批云计算老师,并通过与华为、中兴和360等知名企业合作,输出云计算技术,培养云计算研发人才。这些工作获得了大家的认可与好评,此后我接连担任了工信部云计算研究中心专家、中国云计算专家委员会云存储组组长、中国大数据应用联盟人工智能专家委员会主任等。

近几年,面对日益突出的大数据发展难题,我们也正在尝试使用此前类似的办法去应对这些挑战。为了解决大数据技术资料缺乏和交流不够通透的问题,我们于2013年创办了中国大数据网站(thebigdata.cn),投入大量的人力进行日常维护,该网站目前已经在各大搜索引擎的“大数据”关键词排名中名列前茅;为了解决大数据师资匮乏的问题,我们面向全国院校陆续举办多期大数据师资培训班,致力于解决“缺人”的问题。

2016年年末至今,我们在南京多次举办全国高校/高职/中职大数据免费培训班,基于《大数据》《大数据实验手册》以及云创大数据提供的大数据实验平台,帮助到场老师们跑通了Hadoop、Spark等多个大数据实验,使他们跨过了“从理论到实践,从知道到用过”的门槛。

其中,为了解决大数据实验难的问题而开发的大数据实验平台,正在为越来越多高校的教学科研带去方便,帮助解决“缺机器”与“缺原材料”的问题。2016年,我带领云创大数据(www.cstor.cn,股票代码:835305)的科研人员,应用Docker容器技术,成功开发了BDRack大数据实验一体机,它打破了虚拟化技术的性能瓶颈,可以为每一位参加实验的人员虚拟出Hadoop集群、Spark集群、Storm集群等,自带实验所需数据,并准备了详细的实验手册(包含42个大数据实验)、PPT和实验过程视频,可以开展大数据管理、大数据挖掘等各类实验,并可进行精确营销、信用分析等多种实战演练。

目前,大数据实验平台已经在郑州大学、成都理工大学、金陵科技学院、天津农学院、西京学院、郑州升达经贸管理学院、信阳师范学院、镇江高等职业技术学校等多所院校部署应用,并广受校方好评。该平台也可以云服务的方式在线提供(大数据实验平台:https://bd.cstor.cn),实验更是增至85个,师生通过自学,可用一个月时间成为大数据实验动手的高手。此外,面对席卷而来的人工智能浪潮,我们团队推出的AIRack人工智能实验平台、DeepRack深度学习一体机以及dServer人工智能服务器等系列应用,一举解决了人工智能实验环境搭建困难、缺乏实验指导与实验数据等问题,目前已经在清华大学、南京大学、南京农业大学、西安科技大学等高校投入使用。

在大数据教学中,本科院校的实践教学应更加系统性,偏向新技术的应用,且对工程实践能力要求更高。而高职高专院校则更偏向于技术性和技能训练,理论以够用为主,学生将主要从事数据清洗和运维方面的工作。基于此,我们联合多家高职院校专家准备了《云计算导论》《大数据导论》《数据挖掘基础》《R语言》《数据清洗》《大数据系统运维》《大数据实践》系列教材,帮助解决“机制”欠缺的问题。

此外,我们也将继续在中国大数据(thebigdata.cn)和中国云计算(chinacloud.cn)等网站免费提供配套PPT和其他资料。同时,持续开放大数据实验平台(https://bd.cstor.cn)、免费的物联网大数据托管平台万物云(wanwuyun.com)和环境大数据免费分享平台环境云(envicloud.cn),使资源与数据随手可得,让大数据学习变得更加轻松。

在此,特别感谢我的硕士导师谢希仁教授和博士导师李三立院士。谢希仁教授所著的《计算机网络》已经更新到第7版,与时俱进日臻完美,时时提醒学生要以这样的标准来写书。李三立院士是留苏博士,为我国计算机事业做出了杰出贡献,曾任国家攀登计划项目首席科学家,他治学严谨,带出了一大批杰出的学生。

本丛书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,请读者不吝赐教。邮箱:gloud@126.com,微信公众号:刘鹏看未来(lpoutlook)。

刘鹏

于南京大数据研究院

2018年5月