大促规划
大促规划.xmind

活动的定义和特点

活动具有大并发、高流量的特点,前期充足的准备是活动顺利完成的必要条件。

准备好完备的保证流程,可以为相关人员提供指引。

基本的保障方案

  • 事前:严格按照保障步骤分工执行,活动要报备,核心链路要梳理,梳理完要评估容量和准备,要治理风险,要准备预案,要建设大盘,准备压测和演练预案,要安排值班。
  • 事中:相关责任方(要分技术负责人和运维负责人,召集相关人员,组成稳定性保障小组)监控线上数据,以线上/线下会议、群聊和电话等多个方式参与值班并及时响应异常事件。
  • 事后:组织复盘,总结亮点,指出不足,沉淀经验。

活动报备

要理清活动信息:活动背景、活动时间、用户参与路径、活动链接、活动 玩法、预计UV数、负责人。

核心链路的设计与梳理

核心链路的梳理、设计需和活动保障的几个核心要素相结合,核心要素分为:隔离、限流、容量。

  • 隔离:域名隔离、Nginx集群隔离、核心服务隔离、以及其他一些重要服务的隔离。
  • 限流:前端活动业务限流、Nginx限流(HTTP限流)、服务限流(RPC)等。特别要关注接入层的限流能力和方案。
  • 容量:从域名解析到后端存储的系列容量评估和准备,容量无法保障的时候需做到对应的预案。特别要关注网关、存储和其他有状态或者单点服务的容量问题。

评估方案

  • 评估基础资源:按照已知的链路图梳理相关的资源准备是否充足。
  • 核心服务评估:根据核心链路,进行容量评估,并完成服务扩容,或接入弹性扩缩容。
  • 依赖服务评估:核心链路服务依赖的下游服务,进行容量评估,并完成服务扩容,或接入弹性扩缩容-要熟悉弹性扩容的策略,精确设计弹性扩容的流程。
  • 其他关联服务评估:
    • 前置行为:用户在进入活动页面之前的一些行为,会对某些服务造成一定压力,比如首页推荐;
    • 后置行为:用户参加完活动之后的一些行为,比如去我的券包去查看券信息,或者查看订单信息,此时会对app中“我的”部分服务造成压力,比如红包卡券服务、订单查询服务、个人资源位服务、动态布局服务。

风险治理

  • 评估服务是否有限流、服务是否有熔断机制、服务是否隔离(服务仅支持本次活动)等方案上的风险。这每一种机制,都应对一类风险。
  • 评估是否有安全风险。
  • 对运营策略、文案、账户等做整体评估,避免出现歧义客诉、法律纠纷、活动效果大打折扣等问题。

大盘建设

要把监控告警放到统一的大盘中,以便高效精准地定位问题。

核心指标应包括交易数据、客诉数据、核心接口成功率、流量等。

活动后复盘

  • 目标回顾:目标拆分,达成情况回顾
  • case study 复盘:沉淀经验,总结教训,TODO 落地与完成。
  • 峰值与容量回顾:对比实际峰值与预估差异,实际容量下,稳定性是否得到保障,及容量是否高估太多而造成成本浪费。
  • 预案回顾:预案是否到位、完备,有无预案待补充和完善。
  • 亮点与不足:肯定亮点和回顾不足。
  • 后续改进:输出正确的做法及未来规划。