一句话: A/B 测试的正确顺序是:先写一句可证伪的假设,一次只改一个变量,开跑前用样本量计算器算好要多少流量、跑多久,到点再看结论。AI 负责发散版本和给实验设计挑毛病,显著不显著由数据说了算,不由感觉说了算。
A/B 测试看起来简单:做两个版本,看哪个数据好。
实际上它是文案工作里最容易自欺欺人的环节。最常见的死法是一次改了标题、按钮、配图和价格说明,数据涨了,庆功,然后下个页面照搬,毫无效果——因为你根本不知道上次是哪个变量起的作用。
AI 帮得上的是发散和挑错,帮不上的是替你遵守实验纪律。
先把"想试试"写成假设
没有假设的测试只是抽奖。假设要写成"把 X 改成 Y,预计 Z 指标会变,因为用户有某个具体的心理或行为原因"。
我想做一个 A/B 测试。 页面是:[页面类型]。 当前问题是:[问题]。 请帮我写 5 个可验证假设,并说明对应要改的变量。
拿到返回先别急着选,盯一件事:每条假设里有没有"因为"。AI 很会写"换标题能提高点击",但说不出用户动机的假设,赢了你也不知道为什么赢,经验没法复用。新手最常犯的错是把 5 条全测——按"预期影响 × 你有多确定"排序,先测最值的那条。
标题和 CTA:AI 发散,你收敛
标题围绕用户价值测,不是越夸张越好;按钮要让用户知道点了会发生什么。
请为这个页面生成 10 个可测试标题。 按痛点型、结果型、场景型、对比型分类。 每个标题说明想验证什么假设。
请为这个页面生成 10 个 CTA 文案。 要求:具体、自然、不夸张。 每个 CTA 说明适合放在首屏还是页面底部。
筛的时候删两类:夸张到你自己都不信的,和跟现有版本几乎没差别的。差异太小的版本就算赢了也测不出显著,纯浪费流量。还有一条纪律:对照组原封不动,别忍不住顺手润色两个字——对照组一动,基准就没了。
实验设计:样本量别拍脑袋
请帮我设计 A/B 测试方案。 输出:实验变量、对照组、实验组、核心指标、护栏指标、运行时间、成功标准。
这一步的关键恰恰在 AI 给不了的地方:样本量。它取决于你的基线转化率和想检测的提升幅度,开跑前用样本量计算器(Optimizely、Evan Miller 这类免费工具)算一遍。两条通行纪律:置信水平按 95% 的行业惯例来;至少跑满一到两个完整的周循环,覆盖工作日和周末,别周中开周中停。另外,优先把测试火力放在高流量、离转化近的页面:同样的改动放在没流量的页面上,样本攒几个月都攒不够。
开跑前对着这张表过一遍:
| 检查项 | 合格标准 | 常见翻车 |
|---|---|---|
| 假设 | 有变量、有预期、有"因为" | 只有"换个标题试试" |
| 变量 | 一次只改一个 | 标题按钮配图一起换 |
| 样本量 | 开跑前用计算器算好 | 跑到"看起来赢了"就停 |
| 时长 | 跑满完整周循环 | 周一开周四停,流量结构偏了 |
| 指标 | 核心指标 + 护栏指标 | 只看点击,不看后续转化和退款 |
复盘:别被"显著"骗了
这是 A/B 测试结果:[数据]。 请判断是否能得出结论。 输出:结果解读、可能干扰因素、是否继续测试、下一轮建议。
把数据贴给 AI 时多加一句"请先列出哪些因素可能污染这个结论"。节假日、投放渠道变化、同期上线的其他改动,都是常见污染源。AI 在这步很好用——它没有"希望自己赢"的立场,你有。
还有个习惯能救命:看结论前先检查两组流量比例。设定五五分,实际跑成六四开,说明分流坏了,这组数据直接作废,行话叫 SRM(样本比例失配)。
这些坑别踩
- 中途偷看,显著就停:这是 A/B 测试的头号作弊行为,提前停下的"显著"很多是噪音;
- 平局后硬找赢家:切几个维度总能切出一个"显著"的子人群,那叫翻数据,不叫结论;
- 小流量硬测小改动:每组没有几百上千次转化,细微的文案差异根本测不出来,不如直接测整版大改,或者去做用户访谈。
Glouth 怎么用
发散标题、CTA,让 AI 当实验设计的反方评审,用 Glouth Chat 就够。要把实验数据接进自己的增长系统做自动分析,走 Glouth Link;需要稳定开通 AI 订阅,看 Glouth Pay。
FAQ
Q:流量很小的站还值得做 A/B 测试吗? 小流量测不出小差异。要么测"大改"(整个首屏推倒重做,差异够大才可能测出来),要么直接约 5-10 个用户做访谈,性价比高得多。
Q:AI 能帮我判断结果是否显著吗? 它能解释统计概念、检查设计漏洞,但显著性要用计算工具按真实数据算。别让语言模型口算统计——它会一本正经给你一个错的数。
Q:要跑多久才能停? 开跑前算好样本量,跑满预定时长再看,中间忍住。行业常见做法是至少两周左右、覆盖完整的周循环;到点没显著,平局本身也是结论。
Q:两个版本打平了怎么办? 平局说明这个变量不值得继续磨,回假设清单换一个更大胆的。在按钮颜色上反复测一个月,是新手最贵的浪费。
最后提醒
A/B 测试不是玄学,是纪律。AI 可以帮你发散版本、挑设计漏洞,但假设你来定,纪律你来守,结论数据说了算。
想直接上手?
这篇讲的活,打开 Glouth Chat 就能干:GPT-5.5 / Claude 等模型中文直接用,不用翻墙、不用海外卡。想给自己的 ChatGPT 账号开 Plus 的看国内充值指南;要把 AI 接进自己的工具,走 Link API。