2018年12月1日 13:30 至 18:00 ,麦思博(北京)软件技术有限公司(msup)在 北京·国家会议中心·朝阳区天辰东路7号(奥林匹克公园内)举办《2018第7届TOP100全球软件案例研究峰会---运维专场(AIOps、DevOps、区块链)》,会议大约有1000人参加。
会议内容
主办方介绍
2018第7届TOP100全球软件案例研究峰会---运维专场(AIOps、DevOps、区块链)宣传图
随着云计算、 DevOps和 SRE的遍及,区块链技术的发展,运维自动化和效率体系的不断完善,运维已然成为驱动各大公司研发运维流程和理念变革的关键角色,运维人员关注的重点和面临的挑战也更多的聚焦在稳定性、流程效率改进、性能优化、用户体验提升以及成本控制等层面。
在分布式架构体系下,稳定性保障是一个极为复杂体系建设过程,除稳定性外,每一个不同的阶段都会有不同的挑战。这个挑战究竟何等凶猛?如何借鉴国内外优秀的实践经验?除了技术经验外,思路和模式上又该怎样转变?
不妨和我们一起来TOP100summit看看!TOP100summit是科技界一年一度的案例研究峰会,每年甄选有学习价值的100个技术创新/研发管理实践,分享他们在本年度最值得的总结、盘点的实践启示。希望本届大会,可以解决当下运维同学们的迷思与困惑。
本届峰会以“释放AI生产力 让组织向智能化演进”为开幕式主题,旨在推动企业在趋势下拥抱AI、探索和思考AI带来的力量。十八个主题专场,120个案例构成。技术主题将集中在:体验设计、产品创新、运营增长、运维体系、DevOps&SRE、区块链、「大前端」、AI驱动、人工智能、架构演进、团队管理....
今天,我们将给大家分享组委会历经两个月案例征集,收集到的众多来自海内外优秀的运维技术案例,受篇幅影响,小编挑选5个入围的案例,先睹为快(排名不分先后)。
蘑菇街SRE&CRE体系建设实践
赵成
美丽联合 技术总监
资深DevOps和运维专家,专栏作家,著有《进化:运维技术变革与实践探索》一书,腾讯云TVP,现任美丽联合集团技术总监。
案例简述
随着运维自动化和效率体系的不断完善,运维关注的重点和面临的挑战更多的聚焦在稳定性层面。近两年,随着Google SRE理念的传播和落地,对于稳定性体系建设起到了非常好的引导示范作用。
本议题主要分享,蘑菇街在SRE实践方面的经验,以及蘑菇街业务整体搬迁上公有云之后,与云厂商之间的CRE体系建设实践。
ROI
通过SRE和稳定性体系的建设,大大提升了对系统稳定性的把控程度,在3S体系的运作下,也极大的提升了与云厂商的配合效率。
百度运维自动化向智能化的转型之路
哈晶晶
百度 资深架构师
百度云资深架构师,负责自动化运维平台和智能运维解决方案的产品设计和架构研发,致力于AIOps在百度搜索、广告、信息流、AI、云等核心业务落地,同时,输出百度运维理念、自动化运维产品、智能运维解决方案给行业客户。
案例简述
百度运维经历了脚本&工具、自动化运维平台、开放运维平台阶段,在2014年开始智能化运维的探索,并且围绕可用性、成本和效率方向的运维目标在诸多运维场景落地。本次分享将以百度故障处理场景为例,介绍百度故障预防、故障发现、故障诊断和故障止损阶段的AIOps实践经验,同时也会分享百度成熟的智能运维产品和解决方案。
ROI
AIOps的核心在于使用大数据和算法变革运维模式,助力业务高速发展,持续提升高质、高效的运维能力,减少自身 dirty work,支撑运营能力提升,为服务增值。在故障发现场景,异常检测算法可减少监控管理的成本,提升监控管理的质量,提升运维人员的能力;在故障预防和故障止损场景,将人的经验进行迁移,使用算法实现智能决策和执行,提供高质量的故障拦截和止损能力,替代运维人员的能力;在较复杂的故障诊断场景中,通过指标关联分析推荐故障的模块和实例,实现智能辅助决策,增强运维人员的能力。
AIOps在社交平台运维中的应用
李雄政
腾讯SNG社交网络运营部 运维小组负责人
15年系统开发、集成、运维工作经验,曾任职于华为全球网络运维中心,主管运维平台建设。现就职于腾讯SNG社交网络运营部,负责社交平台业务运维管理。
案例简述
本次案例将重点分享AIOps在腾讯SNG社交平台产品中成本、效率、质量上的提升。
ROI
目前市面上看,AIOps的一股大潮非常汹涌,本案例给出在海量业务上落地的实践。 决策树、皮尔逊、频繁项集、贝叶斯等理论在运维中的应用。
1、决策树方法在质量和成本中的应用 – 助力成功率提升到99.99%,成本策略落地
2、LR、皮尔逊方法在容量评估、节假日准备上的应用,高效管理容量,容量评估从人肉、自动、准确率大幅提升
3、频繁项集、贝叶斯等方法在告警收敛上的应用,快速发现根因
直播平台的运维保障实践
张观石
虎牙 直播业务运维负责人
10余年网站开发、架构、运维经验;目前关注互联网服务可靠性系统工程、运维平台的规划建设、网站高可用架构等方面;在音视频传输质量评估、微服务运维方面积累了丰富的经验。
案例简述
本案例会讲到虎牙是如何从0到1建立音视频质量全链路监控、感知、保障,以及评估我们的质量。直播流程是从主播端->推流点->CDN转推收流点->转码->分发->观众端(各省市、运营商、各种端),整个链路长、实时性要求高,环节多。
如何做全链路质量数据采集、上报、存储、展示和告警;如何在直播过程中快速发现某条流的卡顿问题,快速修复直播故障,帮助我们从多个方面提升整个组织的效率;如何帮助提升直播平台的音视频的传输质量,提升主播和观众的观看直播的体验。
ROI
运维效率的提升,直播质量的提升
三七互娱故障追踪和故障自愈系统
童传江
三七互娱 运维开发负责人
三七互娱运维开发负责人 ,运维行业7年工作经验,做过网络管理,做过应用运维,目前专注于运维开发,对于行业所要解决的质量、成本、效率、安全,有完整的交付和实践经验,爱好广泛,热衷于解决疑难问题和分享。
案例简述
在实际运维过程中,因为业务系统越来越复杂,变更越来越频繁,总是存在各种各样监控未覆盖或者以前未知的故障发生。如何构建一套全链路的故障追踪和故障治愈系统,成了质量保证部门的刚需,通过行业标准化的paas平台模式和Trace追踪技术,从而实现整个架构的质量可控。
ROI
通过半年的开发,对整体业务的质量有了本质的提升。 整个paas和trace系统开发周期2人半年,系统上线后,中级以上故障平均处理时间从20分钟,提升到5分钟左右。
麦思博(北京)软件技术有限公司(msup)
麦思博(msup)有限公司发源美国西雅图,2007年创办,是一家面向技术型组织的培训咨询机构,服务于技术团队的技能提升、软件工程的实际应用和产品品质的创新与超越。强调人员、技术、流程和管理的有机结合,注重角色岗位的技能提升与职业发展,以及技术团队复合管理与协作。每年超过1000家企业续单参与msup旗下公开课、工作坊、案例研究、国际游学等培训项目。
运维专场目前已公开案例
《三七互娱故障追踪和故障自愈系统》童传江 三七互娱 运维开发负责人
《AIOps在社交平台运维中的应用》李雄政 腾讯 社交平台运维小组负责人
《DevOps落地实践-研发效能解决方案》唐洪山 京东金融 研发支持团队负责人
《蘑菇街SRE&CRE体系建设实践》赵成 美丽联合 技术总监
《百度运维自动化向智能化的转型之路》哈晶晶 百度 资深架构师
《直播平台的运维保障实践》张观石 虎牙直播 直播业务运维负责人
《平安壹钱包DevOps实践》黄河 平安壹钱包 智能运维负责人/资深架构师
《数据驱动的数据中心》杨珂 Salesforce 技术产品总监
《美图基于开源,打造端到端的一体化监控体系》石鹏 美图 运维架构师
即将更新,敬请期待
会议门票
场馆介绍
单日自由票:2200元/人,三日会议任选一日参加,含午餐
两日自由票:3600元/人,三日会议任选两日参加,含午餐
国家会议中心
国家会议中心位于鸟巢和水立方之北,是一座八层楼、近400米的长形建筑。2008年奥运会期间,由击剑馆、国际广播中心组成,主新闻中心(MPC)是文字记者和摄影记者进驻的工作区,共有1000多个记者工作席位及硬件配套设施。国际广播中心建筑面积14万平方米,是奥运会历史上最大的国际广播中心,来自全世界16000名广播记者都在此工作。奥运之后,国家会议中心经过一年多的改造投入经营,至今已走过五年历程 ,创造了无数辉煌,这座曾经的奥运场馆正以骄人的成绩,成为中国乃至亚洲快速成长的会展业第一品牌 。大量具有国际影响力的会议 、展览项目陆续在国家会议中心成功举办,让这个中国会议业的旗舰场馆向世界展示了其多平台、复合型、高质量的强大综合实力,创造出了良好的经济效益和社会效益。2014年11月5日—10日,来自21个经济体以及这 21个经济体以外的17个国家和地区的领导人、高级官员和工商界人士相继出席APEC会议周。国家会议中心作为本次APEC会议的“主力场馆”承担着为期7天的领导人会议周中6天的接待任务,为210场规模不等的会议和活动、165场餐饮和约9.1万人次提供了专业、细致、高效的会议服务。国家会议中心再次成为世界瞩目的焦点。国家会议中心借此成为一个重大外事国务活动的接待场所,也变成了世界级的会展品牌。附近酒店:北京北辰洲际酒店、凯迪克·北京格兰云天大酒店、西藏大厦交通:特13路新闻中心站下车 ,步行380米。