腾讯蓝鲸论坛-专业的技术交流论坛

 找回密码
 立即注册
忘了密码?
搜索
热搜: 用户手册 FAQ
查看: 1644|回复: 0

接入自愈,需要运维做什么?

[复制链接]

2

主题

0

好友

40

积分

预备会员

Rank: 1

发表于 2017-6-1 16:48:52 |显示全部楼层
本帖最后由 stephen 于 2017-6-1 16:50 编辑

【故障自愈】不但能提高业务的可用性,还是一个提升运维同学生活质量的好帮手。想想吧,一些常见的小故障,在配置了策略进行故障自愈后,运维同学再也不必半夜三更的爬起来远程恢复业务了。好不容易有个假期吃着火锅唱着歌时也不用再提心吊胆的了。

不过要用好故障自愈的功能,咱们运维同学要做哪些事呢?简单说,就是两个动作:
    (1)接入告警。
    (2)配置或实现自愈套餐。
打开了看呢,应该有下面几个步骤:

    接入:
        1) [熟悉自愈] 了解自愈服务的整体机制,便于更好的进行全盘考虑和优化。
        2) [告警梳理] 清理无效告警,补全业务所需告警。
        3) [告警接入] 添加告警定义。建议至少要将基础告警(如ping超时、磁盘只读、进程和端口告警等)全部接入自愈,再添加更多业务告警(如在线告警等),会有更好的收益和体验。
        4) [自愈套餐] 针对告警类型添加自愈套餐。
        5) [调试接入] 对已接入的告警进行自愈调试、灰度接入。
        6) [正式启用] 将告警定义的状态设为正式启用。

    接入后:
        7) [关注通知] 关注自愈推送的通知。某些情况,如“系统同时收到了较多进程端口告警,原因是运维发布版本时未屏蔽告警”,需要人工确认之后才能执行自愈套餐,以防止对类似情况的过度反应。
        8) [关注指标] 通过对自愈指数及自愈接入度的关注,可以衡量一个业务的故障处理能力的提升情况,并进行持续优化。
        9) [采纳建议] 通过采纳自愈待优化项的建议,处理掉频繁出现告警的问题,在突发前未雨绸缪。
        10) [减少告警] 一段时间关注故障自愈的可靠性之后,可以降低告警通知频率和方式,降低骚扰,聚焦在需要运维关注的重要告警上。
您需要登录后才可以回帖 登录 | 立即注册

蓝鲸官网

GMT+8, 2018-1-16 23:30

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部