SAS编程演义
上QQ阅读APP看书,第一时间看更新

1.1 往事并不如烟

关于SAS,这里面有很多有意思的往事。从简简单单的名字发音,到颇为有趣的公司历史,再到刀光剑影,快意人生的网络江湖,每一个话题都值得煮一杯清酒开怀畅谈。

→1.1.1 逗你玩的发音

我第一次听说SAS(Statistical Analysis System)是在本科的统计软件包课上,当时我以为老师说的是严重急性呼吸综合征(Severe Acute Respiratory Syndrome,SARS),因为老师的发音大概就是“萨死”,这不禁让我想起2003年刚经历的那场不堪回首的全民浩劫“非典”。

后来,我才留意到原来我们的英语发音是多么的糟糕,或者说是多么的随意。SAS的正式发音大概是“赛死”,所以SAS公司在中国注册的中文企业名用的是 “赛仕”,而SARS的正确发音是“萨而死”,因为中间有卷舌音。更让人啼笑皆非的是SPSS的读法,很多统计老师即便是在大庭广众之下也毫无羞涩地脱口而出“死怕死”,其实由于SPSS没有元音字母,正确的发音应该是“爱死辟,爱死爱死”。

→1.1.2 有点趣的历史

关于SAS(Statistical Analysis System)这一词可以有多种层次的解读。SAS可以是业界最负盛名的一个统计分析系统,也可以是一门德高望重的统计编程语言,还可以是一个颇具传奇色彩的商业分析软件与服务供应商。

SAS作为一个统计分析系统和一门统计编程语言,要远早于其作为一家商业公司(见图1-1)。1966年,美国农业部(United States Department of Agriculture , USDA)把海量农业数据的计算机化和统计分析需求委托给大学统计师南方实验站(University Statisticians Southern Experiment Stations),希望开发出一种具有综合用途的统计软件包,以便分析他们获取的所有农业数据。这个试验站联盟了以北卡罗来纳州立大学(North Carolina State University,NCSU)为主的八家政府资助大学,他们从美国农业部获得科研经费,并从美国国立卫生研究院(National Institutes of Health,NIH)获得了一笔捐赠,最终的研究成果即统计分析系统(Statistical Analysis System,SAS)。北卡罗来纳州立大学的教职员工Jim Goodnight与Jim Barr(Jim Barr又名Anthony James Barr,Tony Barr)为项目负责人,Jim Barr创造了整个项目框架,而Jim Goodnight则负责实施框架之上的各种特性,并拓展了系统的功能。1972年NIH终止了资助之后,试验站联盟的成员们同意共同出资,每个成员每年出资5000美元,NCSU也由此得以继续开发并维持系统运作,从而支持其统计分析需求。此后,NCSU的统计系雇员Jane Helwig、研究生与程序员John Sall也加入了该项目。1976年,他们离开NCSU,在大学的对面希尔博拉大街2806号的一幢办公楼里组建了私人公司SAS研究所(SAS Institute Inc.)。SAS公司成立早期,Jim Barr、Jim Goodnight和John Sall三人负责敲代码,Jane Helwig则负责SAS文档的规划和书写(见图1-2)。目前,Jim Goodnight仍然是公司的CEO,John Sall已经是公司的二把手,他还一手缔造了SAS软件的兄弟产品JMP。Jim Barr后来单飞,又创立了Barr Systems公司,关于Jane Helwig,虽然颜值高,但网上信息寥寥。

图1-1 SAS公司信息

https://en.wikipedia.org/wiki/SAS_Institute

图1-2 SAS公司的几位创始人

http://saslist.com/wiki/index.php?pic-view-31-60.html

SAS公司成立当年,他们做了两件大事:一是发布了第一个商用版本SAS软件;二是举办了第一届SAS用户国际组会(SAS Users Group International, SUGI)。这两件事无论是对SAS公司还是对SAS用户来说都意义深远。SAS软件发布一年后,便入榜Datamation杂志举办的DataPro软件光荣榜,此后三年仍位列榜上。SAS软件系统自发布到现在,经历了很多变革。早期版本的SAS运行于大型机上,1985年SAS公司发布了运行于PC DOS版本的SAS 5,1988年发布了用C语言全部重写的SAS 6,并开始支持Windows操作系统,2000年SAS 8开始支持Linux操作系统,目前(2017年)SAS软件最新版本是9.4,包含了支持高性能统计建模、分布式内存计算、可视化统计分析等诸多适应大数据时代的新特性。更多关于SAS软件的历史,推荐SAS官方的2分24秒宣传视频:SAS Timeline: A History of the Analytics Leader。

SUGI自第一届成功举办以来,每年参加的人数都迅猛上升,成为全球SAS用户分享交流的盛宴。2007年SUGI更名为SAS全球论坛(SAS Global Forum, SGF)后,吸引了全球更多行业的SAS用户参与分享交流。现如今,SAS公司仍然是全球最大的商业分析软件与服务供应商,据说Jim Goodnight为了保持公司的独立发展战略,一直拒绝上市,在传统的统计软件公司要么消失、要么被合并的洪流中,SAS公司竟然保持了一枝独秀的状态。目前SAS公司全球雇员超过1万多名,客户遍及全球149个国家,应用领域涉及银行、政府、服务、保险以及生命科学等各行各业(见图1-3)。SAS公司凭借其卓越的表现将诸多殊荣收入囊中,如“在职母亲最适宜公司”“全球最佳雇主”“最受欢迎的百强企业”……这与其创始人Jim Goodnight的人才理念不无关系:If you treat employees as if they make a difference to the company, they will make a difference。

2000年SAS公司启用新的Logo和标语:THE POWER TO KNOW®。通过数据,探知世界,这是数据分析的终极目的,提供探知的力量,这是SAS所努力的方向。关于这个宣传语,同样推荐SAS公司官方宣传视频: Know all the possibilities with SAS®High-Performance Analytics

→1.1.3 逝不去的江湖

介绍SAS的历史,毕竟不是笔者份内的事,聊聊网络江湖中SASor(SAS爱好者)的快意恩仇,不失为乐事一件。

在微博、微信还没有崛起的年代,网络论坛(Bulletin Board System,BBS)一统天下。在论坛里注册个名号,就像武林人士有了个绰号:比如行者武松、浪子燕青、花和尚鲁智深、一丈青扈三娘什么的,就可以在网上行走江湖了。SAS武林,最早可能存在于imoen创立的SASOR论坛(www.sasor.com)里,里面的风云人物如SAS_Deam、data _null_等。关于SAS_Deam,网上的痕迹很少,目前可以找到的只有其两篇文章——《关于SAS的零碎印象》和《SAS语言管窥》;data _null_ 在UGA大学邮件列表SAS-L还有活动记录。Shiyiming建立的SAS中文论坛(http://www.mysas.net/)和sxlion倒腾的SAS资源资讯列表(http://saslist.net/)也是承载了很多SASor记忆的地方。人大经济论坛的SAS专版(http://bbs.pinggu.org/forum-68-1.html)可能是目前少有的还在和微博、微信抢流量,做垂死挣扎的网络论坛。

网络论坛里有一大批熟悉的ID,通常为了解决一个小问题,各路大神前赴后继贴代码,只为一比高下,就像武林人士的擂台赛,好生热闹。在微博、微信一统天下后,转发和点赞成为常态,拼代码、讨论帖子已然成为过去。这正如sxlion所写的:“可惜美好的时光不长久,春去秋来,草长莺飞。论坛ID后面一个个现实生活中的SASor,或结婚生子,或迁徙他乡,或跳槽转行,人生变幻,几度春秋,论坛里新人经常有,故人不常在。美好时光,竟成稀缺的回忆。”好在论坛里沉淀的帖子记录下了岁月的痕迹,论坛虽然逐渐消逝,但微信公众平台或者其他网络社群会随即出现,SASor也会不断更替。常言道,有人的地方就有江湖,人就是江湖,SASor还在,SAS的江湖如何逝去?