活动保障性体系建设和实践的总结
活动的定义和特点
活动具有大并发、高流量的特点,前期充足的准备是活动顺利完成的必要条件。
准备好完备的保证流程,可以为相关人员提供指引。
基本的保障方案
- 事前:严格按照保障步骤分工执行,活动要报备,核心链路要梳理,梳理完要评估容量和准备,要治理风险,要准备预案,要建设大盘,准备压测和演练预案,要安排值班。
- 事中:相关责任方(要分技术负责人和运维负责人,召集相关人员,组成稳定性保障小组)监控线上数据,以线上/线下会议、群聊和电话等多个方式参与值班并及时响应异常事件。
- 事后:组织复盘,总结亮点,指出不足,沉淀经验。
活动报备
要理清活动信息:活动背景、活动时间、用户参与路径、活动链接、活动 玩法、预计UV数、负责人。
核心链路的设计与梳理
核心链路的梳理、设计需和活动保障的几个核心要素相结合,核心要素分为:隔离、限流、容量。
- 隔离:域名隔离、Nginx集群隔离、核心服务隔离、以及其他一些重要服务的隔离。
- 限流:前端活动业务限流、Nginx限流(HTTP限流)、服务限流(RPC)等。特别要关注接入层的限流能力和方案。
- 容量:从域名解析到后端存储的系列容量评估和准备,容量无法保障的时候需做到对应的预案。特别要关注网关、存储和其他有状态或者单点服务的容量问题。
评估方案
- 评估基础资源:按照已知的链路图梳理相关的资源准备是否充足。
- 核心服务评估:根据核心链路,进行容量评估,并完成服务扩容,或接入弹性扩缩容。
- 依赖服务评估:核心链路服务依赖的下游服务,进行容量评估,并完成服务扩容,或接入弹性扩缩容-要熟悉弹性扩容的策略,精确设计弹性扩容的流程。
- 其他关联服务评估:
- 前置行为:用户在进入活动页面之前的一些行为,会对某些服务造成一定压力,比如首页推荐;
- 后置行为:用户参加完活动之后的一些行为,比如去我的券包去查看券信息,或者查看订单信息,此时会对app中“我的”部分服务造成压力,比如红包卡券服务、订单查询服务、个人资源位服务、动态布局服务。
风险治理
- 评估服务是否有限流、服务是否有熔断机制、服务是否隔离(服务仅支持本次活动)等方案上的风险。这每一种机制,都应对一类风险。
- 评估是否有安全风险。
- 对运营策略、文案、账户等做整体评估,避免出现歧义客诉、法律纠纷、活动效果大打折扣等问题。
大盘建设
要把监控告警放到统一的大盘中,以便高效精准地定位问题。
核心指标应包括交易数据、客诉数据、核心接口成功率、流量等。
活动后复盘
- 目标回顾:目标拆分,达成情况回顾
- case study 复盘:沉淀经验,总结教训,TODO 落地与完成。
- 峰值与容量回顾:对比实际峰值与预估差异,实际容量下,稳定性是否得到保障,及容量是否高估太多而造成成本浪费。
- 预案回顾:预案是否到位、完备,有无预案待补充和完善。
- 亮点与不足:肯定亮点和回顾不足。
- 后续改进:输出正确的做法及未来规划。
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.