面试命中率90%的点
需要注意的是:如果你响应了,但是没有及时的同步出来,等于没响应,默默把事情做了,是开发者(Dev)的思维,作为SRE,风险和进展的及时组织和通报,才是你应该做的。 当然,你的通报要注意控制范围,最好优先同步给你的主管和产品进行评估,避免范围过大引起恐慌,要根据事情的严重程度来共同决定,这是对团队负责。 及时、快速的响应,是保证不出问题的关键,也是SRE人员赢得领导、业务方、产品和其他合作方信任的关键,赢得信任,是解决“做好没好处、做不好背锅”的基石。 (2)把机制建立好,切实落地 前面已经说过,“稳定性从来不只是稳定性负责人的事情”,这一点,要深入到团队每个人的心里,更要深入到SRE自己心里,一人抗下所有,不是英雄的行为,在SRE工作中,也不值得赞许,很多时候一人抗下所有只会让事情变得更糟糕。 作为一个SRE,想做到“不出问题”这个基线,关键还是要靠大家,如何靠大家呢?就是要落地一套稳定性的机制体系,用机制的严格执行来约束大家,这套机制也必须得到团队leader的全力支持,不然无法展开,这套机制包括:
比如,如果总是SRE人员去响应报警和值班,就会非常疲惫劳累,人不可能永远关注报警,那怎么办呢?可以从报警机制、自动化、值班机制3个方面入手: 一方面,让报警更加准确和完善,减少误报和漏报,防止大家不必要的介入,另一方面产出自动化机器人,自动进行一些机器重启,工单查询,问题简单排查之类的工作,还有就是建立值班轮班,让每个人都参与进来,既能让大家熟悉业务,又能提高每个人的稳定性意识。 对于SRE来说,指定机制并且严格落地,比事必躬亲更加重要。上面这些机制,将在后面的章节中详细论述。 (3)主动走到最前线 SRE工作,容易给人一种错觉:“是做后勤保障的”,如果有这种思想,是一定做不好的,也会把“做好没好处、做不好背锅”这个疑惑无限放大。作为SRE人员,一定要主动走到最前线,把责任担起来,主动做以下几个事情:
疑惑2:稳定性总是做擦屁股的工作 这么想,是因为没有看到稳定性的前瞻性和价值,如果你走在系统的后面,你能看到的就只有系统的屁股,也只能做擦屁股的工作,如果你走到了系统的前面,你就能看到系统的方向,做的也就是探索性的工作。 所以,要让稳定性变成不“擦屁股”的工作,建议从下面2个方面思考:
(1)不能只做当下,要看到未来的风险,善于总结 (编辑:吉安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |