江边闲话集

对顺丰删库事件的思考

这几天,每次在各个新闻app和圈子里出现该事情,我是感到很诧异和遗憾。

顺丰作为国内快递行业上市公司的第一名,市值约1800亿人民币。作为这样一个量级的公司,出现这种情事情,的确是不应该的。总体来说,我对这件事情的印象是:

  1. 顺丰IT水平可能不好。
  2. 顺丰IT管理肯定是存在很大的漏洞。
  3. 该工程师技能应该是比较弱的。
  4. 顺丰最应该考虑的是如何避免这种事情再次发生。

一直以来,在软件工程里,前期开发很重要,到了后期,运维又变得重要了。所以,任何一个公司,绝对不可以小觑运维的重要性。一个规范化的公司,在软件运维上必须有自己的制度和规范。

在我看来,当一个公司发展到了一定规模后,制度是要比人的主观能力要重要。说回这次事故,该如何去避免?或者说一个正常的运维是什么样的?

首先,对于不同角色,严格控制其权限和职责,例如研发有研发的权限,运维工程师有运维工程师的权限,DBA有DBA的权限。每个角色的权限是相对的。

其次,如果做一项升级,前期工作必须做好。一般来说,先申请一个时间窗口去升级,这个申请,必须按照相关的流程去审批。其次,如果申请通过,需要准备好升级的步骤(至于是手动还是自动,后面再讲),形成文档。接下来,将该文档提交给相关team去审核,审核通过后到了维护的时间窗口根据文档去做升级即可。那么该文档怎么写:

  1. 包含每个模块升级的每一步骤。
  2. 必须准备好升级失败后如何rollback的步骤。
  3. 能用脚本执行则用脚本执行,避免人工执行每一个步骤。
  4. 涉及到删除数据,更改数据,增加数据等操作,务必谨慎,有必要在lab环境里跑一次。要条件的化,QA可以介入其中。
  5. 升级文档要经过几个team的审核,尤其是对那些复杂的升级。

接下来,就开始干活了。至于是手动还是自动升级,都非常关键。在我看来,越是自动化,说明公司运维水平越高,反之,越是手动,公司运维水平就越低。例如,假设现在去升级某个web app,但是这个web app部署在不同pop(假说m个),不同pop又有n个实例,那么最后要升级m*n个实例,试想一下,如果2*2=4,手动还可以。如果是2*10=20,手动还可以接受吗?

为什么要强调自动化呢?很简单,我们要尽量降低认为错误。毕竟,人犯错误的可能性是非常大的,因为升级的时间窗口往往都是大半夜,这个时候,人处于疲惫状态,很容易出现认为的错误,而且很多时候不可预测。例如,计划删除数据库里的某些数据,通过执行SQL语句DELETE FROM table1 WHERE id=12可以达到该墓地。因为网络错误,或者id=12输入到1时,手抖,按了enter,这样就会误删,想想是不是很可怕。除了这些,还有rm 命令等。如果我们前期在准备升级文档时,把这些SQL放到脚本里去执行,那么人为错误的概率就会大大降低。

在这件事情上,运维工程师犯错了,一点不冤,需要惩罚,但是务必达到教育的效果。同时,这件事情也需要引起运维部门的高层的注意,例如Director,VP甚至COO级别的,否则,这种事情还会不断出现。我觉得,在本次事件中最大的隐患还是制度的缺失和升级方法导致的,所以在流程上改进改进再改进,方法上优化优化再优化。

最后,运维是一个非常有技术含量的活儿,同时也是靠制度撑起它的。别小看它,必须重视,否则出现什么问题,大晚上被叫起来的概率就会增加。

评论已关闭.