腾讯蓝鲸论坛-专业的技术交流论坛

 找回密码
 立即注册
忘了密码?
搜索
热搜: 用户手册 FAQ
查看: 2546|回复: 1

[会议活动] 开放蓝鲸,共建『云运维』生态

 关闭 [复制链接]

36

主题

0

好友

1775

积分

管理员

Rank: 48Rank: 48Rank: 48

发表于 2016-8-8 12:36:43 |显示全部楼层
开放蓝鲸,共建『云运维』生态

腾讯游戏运营部蓝鲸产品中心总监·党受辉
        2016年7月26日,腾讯智营与腾讯云联合举办的第四届游戏运营技术论坛在上海瑞金洲际酒店圆满举行,腾讯游戏运营部蓝鲸产品中心总监党受辉(咖啡党)开放蓝鲸,共建『云运维』生态”为主题做了精彩的分享,以下是他的演讲实录。
coffee-02.jpg

Ø  云时代对传统运维岗位带来的冲击
       企业的持续发展都会面临的一个问题,就是服务器设备量的持续增长;近几年来,虚拟化、容器技术的蓬发让我们更深的体会到操作单元数暴增的压力;再加上云时代的到来,我们操作的单元不仅是多,还可能分布在不同的云区域,甚至不同的云供应商。
1.png

1、不同运维岗位面临的挑战
       我们把运维岗位类型分为3类来说,首先是IDC运维,随着IaaS的出现,这一类运维的需求量会面临严重的萎缩,他们的工作职能大都被集成到了云平台上。其次是SA,他们主要负责基础运维和运维安全方面的工作,同样的也将逐渐被集中到云平台,并以服务的形态提供给用户。最后说到应用运维,也是目前企业里运维群体比较多的岗位;他们的职责比较直接的面向业务,例如发布、变更、故障处理等等,但随着新技术不断的出现,工作职能也会受到萎缩,被大量的工具所替代。
2.png

2、运维的三层组织定位
       今天我们就应用运维的组织定位出发,将它从下至上分为三个层级:运营保障、运营工具、运营决策。应用运维首先要做到运营保障,也是这个岗位一直以来被定义的职责,保障业务7x24小时不间断的运营;但如果我们被严格限制在这一层的话,面对各种云平台的轰炸,应用运维的工作量和职能会受到更严重的压缩,并且影响到能力输出,慢慢地,人力会被工具所替代。所以,运维需要通过提升个人的开发能力,输出一些运营支撑工具,这样不仅能够帮助开发团队,让他们可以更专注于业务的研发工作,而且还能提升产品运营人员的工作效率,扩大运维人员的影响力。再进一步提高服务意识,通过提炼业务的运维数据指标来推敲问题的现象,告知产品运营人员通过什么样的策略可以帮助业务防止用户流失、提升产品收益等等,从而实现辅助运营决策。
3.png

3、蓝鲸的定位
       企业的核心岗位大概定位成五大块:产品设计、产品研发、市场渠道、业务运营和团队管理;随着云时代的到来,蓝鲸的定位主要集中在企业的业务运营和团队管理两个领域上。业务运营最基础的就是运维,保障底层的稳定支撑是至关重要的;企业的发展规模越大就越需要团队管理,而团队管理除了理念以外,实际上起到作用的是能够真正落地的运营系统,例如绩效考核系统、日常工作管理系统等等,所以蓝鲸的职能定位就是,通过构建各式各样的运营系统来帮助大家提升工作效率。
4.png

Ø  蓝鲸的设计理念和发展路径
1、运维自动化的演进过程
       谈到蓝鲸的发展路径,首先从运维的运营保障工作说起,这里就需要提到运维自动化的几个不同阶段;从最早的手工操作,到后来shell/perl漫天飞的脚本自动化,这个阶段存在很大的隐患,当企业面临人员调动时,新来的运维人员对以前遗留的脚本不熟悉或者不信任,以致于需要耗费大量的时间成本去磨合甚至重构;于是后面就发展到通过脚本编程语言(python/php等)把零碎的脚本操作逻辑以WEB页面化的形式展现,除此之外更重要的是能够脱离对跳板机的依赖、降低操作风险,并且可以将工具提供给不同的岗位使用。但是当工具/系统越来越多时,操作人员就需要在各种不同的页面上来回切换,且每个动作是需要间歇性的操作来执行;这个时候就需要通过跨系统的调度自动化来解决,这也正是蓝鲸最基础的设计理念。
        蓝鲸体系目前是由七大平台构成的,我们在最早期开放的配置平台和作业平台,它们的作用就是将运维大部分的手工操作和脚本集成到页面实现WEB自动化。运维可以借助作业平台的云化脚本管理,以模块化的形式自由编排成一个作业任务,实现一条完整的操作流程;除此之外,还具备了海量的操作性能和跨云管理的功能。
5.png

2、蓝鲸的设计理念
       蓝鲸在腾讯游戏内部就是以一个To B的角色在运作,各个游戏业务工作室对我们而言都相当于不同的公司;在面对不同业务类型时(尤其是代理业务),完全标准化模式是很难实现的,我们需要做到兼容不同的架构、语言和平台,具备通用性的设计来支撑所有游戏的运营。在摸索共性时我们发现,每个场景都可以用“点”和“线”的形式进行连接,这种模式在面对不同管理系统之间的调度就可以应对自如了。
       蓝鲸运用SOA的理念,利用ESB服务总线来管理每个基础平台/系统提供的API,并把常用的组合逻辑以服务组件的形式,通过统一标准的协议开放给上层的支撑工具和运营系统进行调度。这种模式就可以使我们在开发运营系统时,减少许多不必要的重复工作量以及维护成本。回到刚才说的作业平台,作为蓝鲸体系的底层基础平台之一,除了具备上面提到的功能以外,其中一个重要的作用就是,支持以自制原子的形态提供给其它系统进行调用,实现调度自动化。
       最后说到“无人值守”,我们认为它实际上只是自动化的一个自然延伸,主要表现在自动化整个流程的成功率层面;假设自动化流程中有某一个节点是可能出现断点问题的,那么你就无法将其称之为无人值守,所以为了能够实现无人值守,就需要加入各式各样的节点来保证整个流程的成功率。无人值守的核心理念体现在它将不再是由人工来触发事件,运维可以通过设置相应的节点来触发一个自动化处理流程;例如检测到故障自动创建工单并触发执行自动修复,通过探测在线、活跃等数据指标来实现自动开区等等场景。
SOA.jpg

3、蓝鲸的运营技术体系演进
       当运维能够把运营保障类的基础工作从手工操作一直到实现无人值守之后,就可以有更多的精力来构建工具帮助业务实现辅助运营。在蓝鲸体系的理念里,我们通过借助其它的技术来武装运维;一是利用云技术实现工具文化,提供给运维用来开发运营系统;二是借助大数据技术,帮助运维实现辅助运营决策。业内目前更多的是在维护云和大数据,而我们倡导运维通过使用这两种技术来提升输出能力和自我价值。
       首先提到云技术的工具文化理念,蓝鲸提供基于PaaS的一站式开发技术解决方案,它将传统开发模式所需要的环境搭建、代码部署、存储管理、网络安全、日志管理等环节整合到云端,以自助化服务的形态提供给开发者使用;除此之外,还提供前后台开发框架、通用组件等模块帮助运维更高效、低成本且免运维的构建运营支撑工具/系统。
       其次再说运维如何通过大数据技术来实现辅助运营决策,蓝鲸提供了管控平台帮助运维将业务运营数据自助采集上报,再利用数据平台做数据汇聚、实时计算和存储,最终以API的形式将数据提供给上层支撑系统应用。在腾讯游戏内部已经有很多案例是利用蓝鲸大数据分析来帮助业务降低运营成本、优化用户体验,甚至是提升业务收益。
7.png

Ø  蓝鲸的开放策略和未来规划
       蓝鲸并不仅仅是面向运维,我们在内部已经通过这套技术运营体系,实现了为不同岗位提供运营系统/工具来提高他们的工作效率。今天,我们会正式发布一些基于蓝鲸PaaS开发的精品SaaS应用。我们希望通过分享蓝鲸从运维、开发到DevOps的运营技术演进过程,并持续开放更多蓝鲸的能力和产品,以促进行业内外更多的企业共同进步,与大家携手走向新的高度。(关注蓝鲸官方公众号,第一时间掌握蓝鲸新发布产品的资料介绍)

lanjingerweima.jpg


您需要登录后才可以回帖 登录 | 立即注册

蓝鲸官网

GMT+8, 2018-1-16 23:06

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部