推荐序四
大数据在近几年已经成为一个火爆的名词,而企业针对数据的分析也从未停止过。从早些年传统企业的数据仓库、BI,到近些年互联网公司的广告推荐、产品分析,再到现在基于IoT硬件的线下用户行为画像,无论是互联网企业还是传统企业,一直都在尝试通过数据帮助企业或企业的用户提升工作效率和体验。从过去的决策支持,到现在普及的精准推荐,乃至未来的基于实时分析的AI交互,大数据及相关技术将一直是这些业务发展的基石,因而在最近的10年,大数据技术有了日新月异的发展。
从海量数据的批量计算到实时分析,从精准推荐到OLAP查询,业界涌现了大量优秀的开源项目。Apache Kylin就是其中一颗由国人研发的璀璨的明星,是国内第一个Apache顶级开源项目(与Kafka、Spark齐名),它解决了海量数据下OLAP查询的关键技术。大数据本身并不能产生价值,针对数据的分析和运用才可以产生价值,而OLAP是企业对数据做深度分析必用的组件。在过去,它能帮助企业从不同维度汇总、下钻看到企业不同部门、地区的差异及发展趋势;现在,它能帮助企业针对不同用户画像的人群做相关行为分析、排行,也可以针对不同的点击事件深入分析不同渠道的转化率、客单价。OLAP技术曾经在百亿数据集、PB级别规模的时候,遇到了很大的瓶颈,无论是并行计算还是近似计算,都对I/O、CPU和查询时长带来了挑战。Kylin运用它独有的技术,在数据存储不产生指数级增长的情况下,采用预计算技术以空间换回了时间,在百亿甚至万亿级别数据集上实现了毫秒级的查询响应速度。同时也利用了模糊计算等技术在允许一定误差的情况下,对10亿级别用户、几千种用户行为标签的数据实现了用户行为的即时查询,帮助企业极大地降低了大数据OLAP实施的门槛,也降低了大数据平台实施的TCO,是企业建设大数据平台的优质OLAP引擎。本书可以帮助企业的技术管理者、开发者详细了解Kylin并将应用部署到自己的企业当中,规避其中的实施风险、提高部署与处理效率。
数据是一种新的能源,它与石油、电力不同,产生于企业和用户的行为,能通过不断地深入使用和反复分析利用来帮助企业增收、节支、提效、避险,其中各个环节都要有适用的工具,Apache Kylin就是其中之一。大数据从过去的批量数据处理发展到现在的实时数据分析,我非常高兴地看到Kylin也支持了相关特性,让数据不止是用于实时计算,还可以帮助管理者看到实时的联机分析处理结果。当然,数据的实时OLAP只是实时分析中的一种,要结合数据实时采集、数据实时计算、数据流挖掘、实时场景引擎等技术,才可以让企业从T+1的分析发展到实时数据分析,进而实现实时决策与反馈,最终实现企业自身的智能分析与交互。数据的实时分析是每个企业实现AI的必经之路,而数据实时分析的应用又离不开Kylin这样的OLAP引擎。
最后,很荣幸可以为本书写推荐序,本书作者之一韩卿(Luke)也是我多年的好友,从他在eBay之时我们就有很多交流,我也有幸看着Apache Kylin项目逐步成为国际著名的开源项目。大数据的发展不是一个项目或一个企业就可以独立推动的,也希望更多的人才和企业加入大数据分析的行业中来,使得我国能够涌现出更多像Apache Kylin一样的优秀项目,让数据成为每一个企业的再生能源!
郭炜
易观CTO