分类: abtest

  • 游戏机制和数据驱动

    一位行业前辈对游戏机制的总结非常到位:通过核心玩法交付核心体验。

    这里的玩法可以不同维度进行拆解

    1. 游戏类型:益智、休闲、角色扮演、策略、模拟经营、冒险、射击、体育竞技等等
    2. 类型细分:比如益智类型又可以拆分消除、数独、卡牌、装饰、填词等各种

    核心体验的交付包括玩法设计和迭代两个阶段

    1. 核心玩法的设计:可以参考《游戏设计艺术》结合里面的各种棱镜进行核心玩法的设计,包括角色、操作、反馈、规则、经济系统、关卡、社交和多人机制(pve/pvp),确保游戏好玩,玩家可以进入心流体验
    2. 核心玩法的迭代:通常以下几种驱动方式,不同驱动方式可以组合
      • 活动驱动:通过活动设计、ip联运等提高用户活跃度
      • 内容渠道:关卡、场景、地图的拓展等,比如开心消消乐定期进行关卡拓展
      • 策略驱动:以消除游戏为例,通过uiue、算法难度控制、商业化变现策略等控制用户体验

    数据在核心玩法设计和迭代中可以发挥的作用

    1. 通过数据观测、分析指引玩法设计的方向
    2. 通过AB实验验证对比设计的优劣,一些典型的案例
      • 游戏难度控制:以消除游戏为例,通过填空算法、熵增算法、清盘算法为用户提供不同的体验,制造体验的波动性
      • uiue:对比颜色、动效、速度等不同交互设计,提升用户留存
      • 商业化:不同的广告形式、频次对比,在保障用户体验的情况下,创造更多商业化收益
  • 实验平台流量框架的设计

    经手的实验平台多了以后从不同公司流量框架的设计和应用中吸取一些经验,下面展开说下我的理解

    流量的理解

    AB实验需要通过对随机、同质、独立的流量施加不同的方案,通过实验观测看不同方案的优劣。所以第一步是对自己流量的理解

    1. 流量的生态包括哪些参与者,比如
      • 互联网中搜索引擎用户
      • 电商领域中买家、卖家
      • 内容领域中的消费者和创作者
      • 外卖中骑手、商家、买家
      • 游戏领域中玩家(又有玩法的区分比如PvP中玩家相互就不独立)
    2. 流量的随机性通常在流量框架中通过技术手段可以解决,比如hash分流、轮询分流等
    3. 流量的同质性正常在流量随机的过程中可以保障,在用户分布(画像、指标的分布)相对比较极端的场景需要进行同质性检验确保实验可信
    4. 流量的独立性在选择流量框架的时候需要重点考量,针对外卖、打车等场景简单随机无法保证流量的同质性和独立性,需要更复杂的流量框架或者分流算法

    流量框架的选择

    AB实验方法由Google引入互联网后,实验方法成为各大公司标配。实验的本质对随机打散的同质、独立流量施加控制。按照流量生态的差异大概沉淀出以下的流量框架

    1. 重叠流量框架,基于层域进行流量管理,被大多数互联网公司采样,可以参考Google论文 Overlapping Experiment Infrastructure: more,better,faster experimentation 重叠实验框架:更多更好更快的做实验 ,在实验配置的时候进行参数的冲突检测。
    2. 基于约束的流量框架,通常适合双边、多边业务形态的公司。由实验者制定约束,平台根据实验者制定的约束,确保无法避免潜在交互影响的实验没有同时曝光给用户。如微软、Uber等公司,实验平台都集成了检测交互作用的自动化系统,以避免实验间潜在交互影响。

    实践案例

    市场上实验平台的设计都要在充分理解业务流量的基础上,解决流量分配随机、同质、独立要求,具体的实现路径就是重叠流量框架(在实验的时候再进行参数冲突控制)、基于约束的流量框架(本质是一种提前进行实验参数冲突控制的策略)

    Google重叠流量框架以及四种实现

    不同公司按照业务的复杂度,可以选择figure a-d四种不同复杂度的流量框架实现。

    美团AB实验白皮书

    白皮书 中介绍了美团流量的特点、流量框架的设计,以及提供的一系列实验分析工具,整体上确保实验平台的科学可信。

    滴滴Adaptive分流

    参考:https://blog.51cto.com/u_15060460/2673616

    随机分流的过程中进行用户指标的平衡,增强流量的同质性

    分流单元定义和分流方法

    流量生态和流量框架的结合包括分流单元的定义和分流方法的选择。

    分流单元

    通常的分流单元可以包括以下:

    1. user_id 适用大部分互联网场景,包括device_id、cookie_id、uuid等类似标识
    2. request_id 适用商业化场景
    3. poi、Geohash等位置标识,适用O2O等场景

    分流方法

    1. hash分流,随机分流并且分流结果固定,通常在重叠流量框架中通过层id等加盐确保层间正交性、时间戳更新进行流量再打散等
    2. 轮询方法,在用户属性(国家、设备等)或者先验指标(例如ecpm)方差较大情况下通过轮询方法保证各组流量的同质性,通过随机进行轮询顺序的打散,通过cache确保流量进组的稳定性

    以上总结了实践中对流量生态理解、流量框架选择、以及具体流量框架实现中的一些考量。 关键要解决

    1. 流量的随机性、独立性、同质性
    2. 流量分配和参数控制中避免冲突

    从而确保流量框架的可信性、实验结果的科学置信。

  • AB实验平台功能列表

    典型的AB实验平台建设功能列表,可以参考:

    需求大类具体需求需求分类交付物优先级相关人备注
    业务理解流量控制文档调研报告P0业务团队AB产品&后端业务服务端流量控制&实验方法:正交,互斥,缓存(加锁),继承,条件筛选
    实验配置文档接口规范(AB后端)P0AB产品&后端业务服务端配置文件格式和schema
    实验配置配置管理功能配置后端(AB后端)P0AB产品&后端配置管理员按照配置协议进行配置管理
    配置分发功能TRD+分流服务P0AB产品&后端业务服务端AB后端提供分流接口、分流算法、缓存加锁(按需)业务服务端接入、返回客户端
    概念抽象文档PRD+系统功能P1AB产品项目,层,实验,分组,参数,条件等
    实验管理实验列表功能PRD+系统功能P2AB产研实验列表以及实验管理功能(启停、扩缩、分组管理、参数管理、版本管理、审批、通知等)
    创建实验功能PRD+系统功能P2AB产研实验设计模板 ,包括 设计 目标 条件 埋点 指标 白名单 冲突检测等
    权限管理功能PRD+系统功能P2AB产研鉴权和数据隔离
    参数管理功能PRD+系统功能P3AB产研业务产研实验参数体系,提高实验效率,构建实验知识库
    最小样本量功能PRD+系统功能P3AB产研分析师/DS依赖指标体系和实验分析方法支持
    流量检验功能PRD+系统功能P3AB产研分析师/DS依赖指标体系和实验分析方法支持
    流量监控功能PRD+系统功能P2AB产研数仓进量监控、进量控制等
    数据链路埋点文档埋点规范P0客户端分析师数仓埋点确认以支持实验分析
    数据同步数据同步任务P1数仓分析师确保埋点事实数据落库、实验跟踪数据落库,支持实验分析
    数据建模数据数据资产P0数仓分析师分层的数据资产ods dwd dws ads dim
    指标计算指标计算数据计算任务P1AB产研数仓预计算vs实时计算
    指标定义功能PRD+系统功能P3AB产研数仓分析师分析师对口径负责
    实验分析实验看板功能PRD+系统功能P0AB产研分析师数仓基础看板支持实验分析
    多维分析功能PRD+系统功能P3AB产研分析师数仓支持多维分析(指标和数据体系的迭代增强)
    置信分析功能PRD+系统功能P3AB产研分析师/DS数仓置信区间、P-value或者胜出概率
    置信计算数据计算任务P3AB产研分析师/DS数仓数据资产确保支持统计量的计算
  • AB实验介绍

    本文来源2022-09在Datafun上做的关于AB实验平台建设的分享。

    为什么我们需要AB实验平台

    A/B 实验应用作为论证的黄金方法,目前已经成为很多企业必然的选择,但是实际上如何在企业内部去建设实验平台,还充满了很多选择路径。目前的实验平台,包括在线实验的数量,已经成为衡量互联网公司体量、业务量以及用户量的一个隐藏指标。一些大厂的实验平台,同时在线实验数量超过 10000,可能每个月新建的实验数量都会大于 1000。

    AB实验是论证的黄金方法

    上图列出了一些数据分析方法,比如案例研究、观察研究、类实验、随机控制实验,以及统合分析,即结合随机实验和观察研究去做一些综合分析。

    这几层分析方法中存在一些通用的因素,首先,样本是定向的样本还是随机的。第二个是有没有控制,比如最下面的案例研究是没有控制的,它可能针对一个群体做分析,而 AB 实验天然会分成对照组和实验组,是有控制的。最后一个就是实验结论是否可以复现,是否科学。这三个因素的不同导致了整个分析方法可信度的差异。从下往上,可信度逐步提升。AB 实验是分析成本最低的一个方法,可以通过工程化的方法来提效,通过 AB 产品化的方式来降低使用门槛。

    AB 实验有三个主要的特点:

    1. 先验性,用事实说话,可以通过小流量低成本来得到一些结论。
    2. 科学性,实验分析时会用到假设检验的方法,相对来说是比较科学的。
    3. 推断性,通过随机流量控制可以排除混杂因素的干扰,聚焦到我们的控制变量和实验策略上。

    当然AB实验也不是万能的,一些适用和不适用场景:

    1. 适用场景
      1. 产品迭代
      2. 用户运营
      3. 算法优化
      4. 营销和用户增长
      5. 商业化
    2. 不适用场景
      1. 战略或者重大决策
      2. 缺少数据或者样本的情况
      3. 商业、道德、技术的限制

    AB实验的定义

    AB 实验源于假设检验。我们在线上流量中取出一小部分(较低风险),完全随机地分给原策略A和新策略B(排除干扰),再结合一定的统计方法,得到对于两种策略相对效果的准确估计(量化结果)。

    这一套基于小样本的实验方法同时满足了低风险,抗干扰和量化结果的要求,因此不论在互联网产品研发还是科学研究中,都被广泛使用。

    真实的业务场景,例如客户端交互实验、搜广推策略实验等场景承载大量的DAU,每天大量新的功能、算法及其他等待上线,一方面业务人员无法承担其中任何一个错误特性直接影响用户体验、商业收入的严重后果,另一方面业务人员又希望能够分离并量化每个特性的影响。

    因此,我们需要设计并坚持使用一套数据驱动的方法,使得业务人员可以以较小的风险对新feature进行评估,积极试错积累经验;并且我们设计的该方法有能力排除其他因素(比如同时开发的其他feature以及时间因素等)的干扰;最后,除了‘好’或者‘不好’,我们希望这个方法最好也能够给出 定量的结果。

    为了解决上述问题,普遍使用的方法论是小流量随机实验,也就是我们常说的AB实验。

    AB实验包括三个核心要素:流量、干预、效果,其中流量满足:

    1. 同质性:控制组和实验组的样本同质(消除偏差)
    2. 独立性:符合样本独立稳定假设(SUTVA)即样本之间不应该有干扰
    3. 可控性:通过随机分流消除所有已知未知因素的影响,聚焦当前干预方案

    同时实验设计三原则(由统计学家费希尔提出):区组,重复,随机。

    实验平台的选择

    整个 A/B 平台的建设,主要有两个思路,第一个就是直接采购第三方平台;另外一个就是自建平台。

    国内目前比较好的第三方产品,比如火山引擎,无论是产品 feature 还是整个应用情况都比较好,因为它是基于自己内部的最佳实践。另外腾讯也开放了第三方平台。热云、神策数据也提供了 SaaS 的实验平台。国外的厂商也比较多,像 VWO 实验测试平台、谷歌的 Optimize、源自Meta的Statsig以及 Optimizely 等等,都是一些比较有竞争力的产品。

    第三方平台通常适用于用户体量比较小,数据跟分析的基建还相对比较薄弱的公司。通过第三方平台的使用,提升公司内部数据以及分析的认知。

    用户行为分析和 A/B 实验是紧密联系的,因为它们都是基于用户的行为,让用户来告诉我们答案,包括底层的一些分析引擎、存储引擎的等基建也都是可以复用的,这也是火山引擎的 A/B 测试和分析能力,和用户行为分析能力都是紧密耦合在一起的原因。

    对于公司自建平台,国内主流的一些互联网厂商也都有很好的实验平台,比如滴滴、美团、阿里、网易、新浪微博等,甚至有一些公司内部有多个实验平台。国外的微软、谷歌也都有非常有特色的实验平台。这些公司也都是用户体量比较大,实验场景多,数据分析基础比较强的公司。在自建实验平台的时候,如果公司业务体量大的话,不同的业务可能结合自身的需求都建过一些实验平台了,这时候还要推动平台从 N 到 1 的建设。在新建平台时,就要考虑业界的最佳实践,同时还要考虑业务方的独特诉求。这样在公司内部推行实验平台的时候才能顺畅,并且最终可能变成全公司通用的实验平台。

    实验平台案例及效果

    业界一些实验平台建设案例和应用效果:

    1. 美团 配送AB评估体系建设实践可信实验白皮书系列 亮点-双端三端的流量均匀匹配
    2. Uber Uber的 A/B 实验平台搭建 亮点-统计分析引擎适配各种指标和统计分析方法
    3. 快手 快手因果推断与实验设计 亮点-因果推断toolkits
    4. 腾讯
    5. 微信 微信实验平台的指标计算架构 亮点-指标计算
    6. 虾皮 电商领域AB实验平台建设方法 亮点-如何从N到1构建统一的实验平台
    7. 得物 得物AB实验平台数据驱动决策实践得物实验平台的演进 亮点-演化过程帮助避坑
    8. Vivo Vivo实验平台霍金设计和实践 亮点-协变量分流方法

    如何设计一个AB实验平台

    实验平台包括流量框架、实验管理以及实验分析等模块,同时需要相应的埋点TMS、数据工程的支撑。

    相关链接

    1. B站分享视频 https://m.bilibili.com/video/BV1VW4y1e71L
    https://m.bilibili.com/video/BV1VW4y1e71L
    1. 墨天伦 https://www.modb.pro/doc/112112
    https://www.modb.pro/doc/112112
    1. 文字稿 https://www.51cto.com/article/750351.html
    https://www.51cto.com/article/750351.html
  • 关于ABTest咨询服务

    Google、Microsoft、Facebook等互联网公司将AB实验的方法从医学领域引入并获得了巨大的业务收益。AB实验逐渐成为互联网公司最佳实践。

    本人经历多个公司AB实验平台的迭代,包括内容行业快手、电商行业虾皮。关于平台搭建、运营以及实验设计、实验分析积累了一些经验。在业界交流中发现大量中小公司也有AB实验平台建设和应用的诉求,结合近期的咨询案例,如果咱们有下面的需求欢迎沟通。

    1. ABTest培训,介绍实验方法、平台建设和应用案例
    2. ABTest设计,基于业界最佳实践,结合公司业务进行实验平台建设规划
    3. ABTest建设和运营陪跑,帮助公司搭建平台并真正让实验成为驱动业务增长的基础设施

  • 欢迎来到 ABTest.Chat

    我是何赞(展博),这是我的个人站点/知识库,大家可以阅读我对数据和AI的思考,以及我关于ABTest平台建设和业务应用的实践,如果您的企业有实验相关的诉求欢迎探讨互动。

    强化学习中的EE难题,即Exploration & Exploitation 如何进行探索和利用的权衡。在信息和数据的应用中同样也有EE难题,即Enormous Information & Effective Application,如何在过载的数据、信息、知识中提炼高价值洞见(DIKW模型),驱动业务增长值得我们一起探索。