第11章 死机篇--硬件导致死机
某知名银行技术员郑先生,凌晨1点打通了我的电话,参加工作这么多年,从来没有手机关机或者静音的习惯,目的就是为了更好的提升用户体验,第一时间解决用户问题,当然,能赚点外快其实是更好的。
电话中郑先生急不可耐,还有两天新机房就要验收了,现在一批设备出现使用中死机情况,现在没有排查思路,问我能不能去现场看看,因本来因为业务就比较熟,我就口吐了几句芬芳就往某知名银行京城总部赶去,4月天深夜还是比较冷的,冷了就想吃点东西,那我肯定不能自己花钱,毕竟是去给别人解决问题的,于是在我到了他们总部后,就要求郑先生带我去路边吃了碗卤煮,这都不重要,重要的是蹭了顿饭。
回到办公区机房,看了下设备,出现问题的一共33台,本次采购50台,还有17台是好的,还好,没全部挂掉,郑先生本想吐槽电脑,我劝他保持理性,毕竟现在问题没有解决,我可是有脾气的。简单看了下我发现问题没那么简单,公司保密要求,所有的系统都是银行内部定制的,定制系统出现问题的概率几乎为零,应该可以排除系统问题,然后打开了一个机箱,发现里面插了一个还原卡,PCIE协议,说实话,我真没听过这个牌子,但就是跟他们合作的,价格还算合适。拔掉还原卡测试还是死机,当晚我就没有办法了,于是我就带着一台电脑回去了,想着明天再说,郑先生迫切的想解决问题,不想让我走,但是我偷摸带着机箱跑了,手机关机,明天再说。
第二天一早,我到店门口的时候,就看到郑先生在门口等我了,我俩略过了熟悉的问候,直奔主题,开搞。拔掉还原卡加压测试还是死机,更换硬盘测试故障依旧,只能全拆裸板测试,电源、主板、CPU、显示器;外接测试工具进行加压测试,故障依旧;替换非同型号CPU继续测试,故障解决,CPU坏了?我俩都在心里疑问,不过我俩想的可不一样。我想的是33台电脑都是CPU故障的话可能会引起舆情问题,郑先生想的确实还好是硬件问题,可以甩锅了,然后郑先生就开心的走出了门店去找领导汇报情况。我这边也不闲着,赶紧编辑邮件上报总部,总部非常重视,立刻派技术大牛赶到门店确认故障,毕竟谁也承担不了批量问题带俩的影响。
技术大牛这边的测试也简单粗暴,直接带来了同型号主机,装上定制系统,还原卡,真让他猜对了,故障复现,是还原卡导致CPU故障,听到这里我们顿时松了一口气,用技术大牛的话说“来的时候我就怀疑还原卡有问题,我没说,因为我还没测试,我这级别的还搞不定这小玩意儿了?”这番话引来我一阵无语。
故障确认了,肯定要沟通客户确认问题处理方案,我们这边的方案是保险起见,把这一批还原卡都换掉,换完CPU后重新安装测试,他不可能不同意,现在能不能达到验收标准可是我们说了算的。更换完毕测试,故障解决,他们也在规定时间内完成了验收,皆大欢喜。
后来这批设备陆陆续续的又出现过几次烧CPU的情况,后来他们干脆换成了软件还原卡,直接把硬件去掉了,当然,这里面少不了我推波助澜,毕竟有外快,何乐而不为。