案例:A/B 实验平台与实验文化建设

背景

我在内容、电商、游戏等场景中参与过实验体系建设和方法论推广。实验平台的挑战通常不是单个功能,而是技术、统计、流程和组织文化同时成立。

常见问题:

  • 有配置中心,但没有完整实验生命周期
  • 有 p-value,但业务不知道如何解释实验结论
  • 有大量实验,但流量互斥、正交、分层不清晰
  • 有短期指标提升,但长期留存、变现、用户体验被忽视
  • 实验结果没有沉淀,团队重复踩坑

解决框架

  • 流量管理:Hash 分流、正交分层、互斥实验、联合实验、条件分流
  • 实验管理:假设、目标指标、护栏指标、审核、发布、灰度、回滚、归档
  • 统计分析:Welch’s t-test、Z-test、Delta Method、CUPED、MDE、多重比较校正
  • 指标体系:北极星指标、核心指标、护栏指标、长期指标

组织推广

实验平台要真正有效,必须让产品、算法、运营和管理层对「什么是可信结论」形成共同语言。

内容平台案例

19年-21年负责快手实验平台迭代,在社区科学部内部(python版本)世界流量模型、分流服务和指标pipeline基础上进行重构,支持公司产品、社科、商业化全业务的实验度量,面向管理层、一线业务提供决策依据。

  1. 流量模型升级,基于Google重叠实验框架进行流量域、层管理,实现业务的拆分,并提供业务长期基线对照
  2. 分流服务升级,支持随机实验、随机区组实验(用户分层),支持联合实验、父子实验等级联逻辑
  3. 指标引擎升级,平台实现业务指标口径和计算的统筹,提供北极星指标、综合分指标进行实验度量,并基于核心指标检验进行流量质检(PreAA)

海外电商案例

22年-25年负责Shopee实验平台重建,把过去分散在各个业务(推荐、搜索、电商、广告)的实验平台进行统一,通过完整的实验度量Infra

  1. 流量框架,基于Google框架支持了流量域的嵌套,更好的进行搜广推的holdout控制和效果归因
  2. 分流服务,流量框架提供的正交、互斥计算,以及分流服务内部提供的联合、父子、正则等动态路由能力
  3. 指标分析,实现了z-test/welch’s t-test/chi-squre test等检验方法,以及delta methond等variance缩减方法,通过报告模板支持快速实验洞察,打通rollout流程,对接github实现审核和自动发布

出海游戏案例

25年上半年为头部出海休闲游戏提供实验平台咨询服务,从互斥流量桶升级到重叠实验框架,实现千级别的实验并发,提高两个数量级,主要交付

  1. 实验平台诊断,聚焦客户主要问题进行实验平台概念、平台实现的诊断(互斥桶模型、CSR分流)
  2. 流量框架升级,按照重叠流量框架进行流量域、层的切分(新增域、活跃域,算法层、UI层、商业化层等),实现完全的基于实验的配置分发
  3. 特性拆分和治理,正交特性的拆分以及实验治理,提升流量同质性,打通游戏引擎研发(特性 feature)-发版(bundle),实现实验配置的自动化
  4. 实验分析提升,收敛核心指标,通过综合分、质量分、效能分提高决策效率,通过CUPED和贝叶斯分析降噪提高分析的置信度
  5. 实验文化和创意库,团队内部普及实验问题,并通过创意库提高创意产能(结合大模型)