大数据架构师指南
上QQ阅读APP看书,第一时间看更新

2.2 中小型部署场景

第二天电话里又传来Boss低沉的声音:“小明马上到我办公室来一下!”小明原本欢乐的心脏顿时咯噔一声,难道报告Boss不满意?小明忐忑地迈进Boss办公室,没想到Boss拍着小明的肩膀说:“最近干得不错,上个case客户很满意,我这里还有一个case,我看好你哟!”

小明从Boss手中拿到case材料,看着眼熟,不是上周在网上大搞营销的那个B公司嘛,他们的产品设计新颖,用户口碑还挺不错的。小明明白,Boss这是在向他委以重任,于是小明立刻向Boss立下军令状,签下任务承诺书。

2.2.1 背景介绍

小明回到办公位立刻对B公司进行了全方位搜索,B公司是行业新玩家,但是凭借自己在用户体验方面的独门绝技,很快站稳了脚跟,并且拥有了忠实的客户群。B公司虽然员工规模不大,但业务发展异常迅猛,正向行业领头羊地位发起总攻。

小明对B公司做了360度调查后,拨通B公司电话说明来电意图,并约定当面拜访B公司进行现场调研。

B公司老总接待了小明,并向小明介绍了咨询目的。B公司是一家新创立的企业,其最初的企业定位就是以极致的用户体验与客户参与为差异化竞争点,通过微信、论坛、问答网站等各种渠道建立起与用户的密切联系与紧密互动,直接将客户声音融入产品开发流程,提升客户的参与度与粘度,提高产品的用户体验。同时B公司特别重视市场分析与品牌战略,将量化的市场分析融入决策流程,所有重要决策都要有数据支撑,并且不遗余力地进行品牌建设,打造科技、时尚的企业形象。这种独特的竞争策略取得了巨大的成功,使得B公司业务规模持续保持高速增长。

老总还邀请小明参观了客服中心,安排小明参加了某产品开发团队、市场分析团队的例会,并与团队成员进行了面对面交谈,还邀请小明参加了一个产品的策划会。小明确实感受到这是一家朝气蓬勃的公司,虽然工作压力很大,但每位员工都清楚地知道自己的责任并为之奋斗。

2.2.2 面临的问题

在B公司开发团队例会和产品策划会上,小明发现各种各样的数据、图表是团队做决策的重要依据。而这些报表都是由市场分析团队综合网络、呼叫中心等各种用户沟通渠道反馈的用户需求,以及各类竞争厂商相关竞情信息,进行深入分析得到的深度洞察,B公司虽然年轻,但却有一个能准确把握客户需求与竞情事态的分析团队。B公司处于业务的快速增长期,对数据分析的需求也持续增长,但合格的数据分析师短缺的问题却很难在短期内通过招聘和内部培养解决。小明在与分析团队沟通中了解到,B公司信息化程度处于初级水平,信息的采集需要分析人员人工进行,耗时费力。而数据分析与可视化主要依赖Excel表格,而Excel模版开发的周期长,响应市场、开发团队的需求变化不灵活,随着产品线的扩大,新的分析需求不断涌现,而用户的增长也使得数据量急剧上升,传统的方式已经逐渐不能应对新的形势。因为采用人工采集的方式,因此原始数据格式不一,保存归档也没有工具支撑,导致数据的重用性差。分析团队迫切地需要自动化数据采集、清洗与预处理流程,并且需要更加高效的数据分析与可视化工具。

同样面临人手缺乏问题的还有客服团队,随着客户群的快速增长,客服团队虽然一再扩充,仍然难以满足实际需求,而场地、成本等其他因素也制约了客服团队进一步的扩大。小明参观客服中心时了解到客服系统虽然实现了统一通信,建立了客户资料数据库,但用户问题的解答全部依赖话务员经验,并且每次客户沟通都要客服人员手工录入客户资料数据库,进一步加大了话务员的工作压力。与此同时,虽然花费巨大力气建立了客户资料数据库,但却没有充分地发挥出其作用。客服团队迫切需要一个智能机器人帮助自动回答一些常见问题,并能够自动地补充客户资料数据库,以减轻话务员的压力。

B公司老总是典型的精英人才,关于信息化和数据分析都有更深入的思考,考虑到公司未来几年可预期的高速增长,老总希望能够高起点地搭建一套大数据系统,将数据的采集、清洗、预处理、存储、分析自动化,重构现有的应用。同时基于大数据平台和累积的用户数据、问答数据和各类实时数据,以构建全新的用户画像系统为核心,依此构建舆情监控、自动问答、客户关怀等上层应用。投资预算相对宽松。

完成对客户的拜访,小明带着调研资料回到公司,马上投入到紧张的需求分析中。

2.2.3 需求分析

从调研可见,B公司现有业务系统比较简单,若将现有业务全部迁移到新系统中重新实现,则系统的设计受历史因素约束少,在预算宽裕的前提下,系统架构可以主要基于当前和未来的业务需求进行设计。

从调研结果看,B公司的需求涉及数据的采集、清洗、预处理、存储与分析计算几个方面,所需实现的业务都是BI、用户画像、知识体系、知识管理、舆情监控、问答系统等非关键型业务。数据规模中等,对计算能力、实时性、高可用性、冗余备份的要求都不太苛刻。但因为涉及的都是公司核心数据,因此对数据安全性要求很高。

数据来自外部的互联网、社交网络和内部的呼叫中心等多个渠道,除历史数据统一迁移外,数据主要以增量的方式积累,需要相应的数据采集接口,且由于数据来源的多样性导致数据形式与质量不一,需要一套完善的ETL系统管理数据的接入、清洗与预处理。

原始数据很大一部分是语音、文字等非结构化类型的数据,需要采用相应的自然语言处理技术进行处理和分析,这类应用主要是以流式应用为主。结构化的数据主要用来做决策支持,需要搭建数据仓库和相应BI系统,这类应用主要以批处理和交互式应用为主。

B公司前期没有专门的机房和专业IT管理员,机房工程设计与施工能力缺失,在需要部署和运维中等规模大数据集群的前提下,需要采用turn-key交付方式。在预算充足的情况下,为减轻对IT管理的压力,应尽量选择成熟、功能完善的大数据平台管理系统。

B公司对本次上大数据非常重视,成立了以老总为第一负责人的领导小组,但B公司整体的IT能力较欠缺,需要抽取骨干人员尽早接受专业培训,并且直接参与大数据建设工作。随着数据分析工具的变化,分析团队也应抽取骨干人员尽早接受新工具的培训和使用。

中兴通讯大数据平台DAP是经过大量实践检验的、成熟的大数据平台,能够提供完善的ETL、存储、流分析、批处理分析、管理、安全和技术支持能力,并且有强大而富有经验的工程服务团队,同时能够提供IT运维管理、大数据分析工具等全方位的培训服务。因此,在预算充分的情况下,小明觉得硬件采用商用服务器,软件采用DAP大数据平台的方案是一个不错的选择。

连续奋战了一个昼夜,小明终于制定出来一套基于DAP的详细技术方案并交到Boss案头。Boss看了小明的方案,大加赞赏,将小明提升为团队主管。