AT

A/B Test Setup Skills 评测：强制统计严谨性的实验设计工作流

bestskills 评测组

2026-04-15

本文对 ab-test-setup skills 进行了结构化实测拆解。解析该技能在 openclaw/hermes agent 中，是如何通过强制结构化假设、单变量原则与预设样本量，帮助增长团队避开常见测试陷阱的。

ab-test-setup-review

Skill 质量评估报告：ab-test-setup

评估时间： 2026-04-15 评估模式： 逐项审查

总体评分

维度	得分	状态
规范（20%）	12/20	WARN
效果（40%）	25/40	WARN
安全（30%）	30/30	PASS
精简（10%）	4/10	FAIL
总分	71/100	良好

等级说明：

70-89：良好 — 有少量改进空间

Skill 亮点

[效果] 渐进式披露做得很到位。将具体的样本量对照表和文档模板分离到了独立的参考文件（如 references/sample-size-guide.md）中，保持了主文件的清爽。 — 引用：For detailed sample size tables and duration calculations: See references/sample-size-guide.md
[效果] 提供了明确的初始评估指引和任务专属提问清单。强制 Agent 在动手前先收集上下文信息，有效避免了盲目生成低质量内容。 — 引用：## Initial Assessment 和 ## Task-Specific Questions
[安全] 内容安全可控，没有包含任何高危操作或破坏性指令。

Skill 可改进点

[规范] YAML Frontmatter 缺失关键信息。少了 author、license 以及 metadata.hermes.tags 等必填字段，且命名没有采用规范的动名词（verb-ing）格式。 — 引用：文件开头的 YAML 块。影响：降低了 Skill 的可检索性和规范度。
[效果] 缺乏供 Agent 执行的具体工作流。整个文档读起来更像是一篇科普 A/B 测试的维基百科，而不是操作手册。 — 引用：全文结构。影响：Agent 没有清晰的“步骤一、步骤二”指引，导致最终输出的格式和质量容易出现波动。
[精简] 充斥着多余的基础概念科普。比如花篇幅解释什么是 A/B 测试、什么是统计显著性（p-value < 0.05）。对于大语言模型来说，这些属于内置常识。 — 引用：## Test Types 和 ## Analyzing Results 章节。影响：白白消耗 Token 额度，拖慢了响应速度。

启发

前置上下文检查模式：在 Initial Assessment 阶段明确要求 Agent 优先读取 .agents/product-marketing-context.md。 — 应用场景：适用于那些重度依赖项目业务背景的复杂 Skill。
结构化的提问清单：将需要向用户确认的问题集中在 Task-Specific Questions 章节。 — 应用场景：所有需要通过多轮对话来明确需求的交互类 Skill。

逐项问题清单

[中等] 规范 — 缺失标准元数据且命名不规范

位置： YAML Frontmatter
描述： 未包含作者、许可证、标签等信息。Skill 命名为 ab-test-setup，未使用动名词形式。
建议： 补充完整的 metadata.hermes 字段，并将名称修改为 setting-up-ab-tests 或 designing-ab-tests。

[中等] 效果 — 缺乏结构化工作流

位置： 全局
描述： 文章列举了大量原则，但没有给 Agent 提供具体的执行步骤和输出模板。
建议： 增加 ## Workflow 章节，用有序列表明确 Agent 接收请求后的执行路径（如：1. 提问收集信息 -> 2. 拟定假设 -> 3. 计算样本量 -> 4. 输出测试方案）。

[严重] 精简 — 充斥大量基础知识科普

位置： ## Test Types、## Sample Size、## Analyzing Results 等章节
描述： 大篇幅解释什么是 A/B 测试、什么是 p-value、如何计算 ICE 分数等 LLM 已知的常识。
建议： 删掉所有教科书式的概念科普，只保留具体业务场景下的判断标准、模板框架和决策原则。

改进建议（按优先级排序）

[必须] 删除冗余的基础概念科普，大幅精简文档，释放 Token。
[必须] 增加明确的 Workflow 章节，将理论知识转化为 Agent 可执行的操作流。
[建议] 补充完整的 YAML 元数据，规范文件命名。
[建议] 提供明确的输出格式模板（Output Template），确保每次生成的测试方案结构一致。

关联资源

原始 SKILL.md

推荐阅读

ab-test-setup 技能介绍

返回产品技能评测列表