AT
A/B Test Setup Skills 评测:强制统计严谨性的实验设计工作流
bestskills 评测组
2026-04-15

本文对 ab-test-setup skills 进行了结构化实测拆解。解析该技能在 openclaw/hermes agent 中,是如何通过强制结构化假设、单变量原则与预设样本量,帮助增长团队避开常见测试陷阱的。


ab-test-setup-review

Skill 质量评估报告:ab-test-setup

评估时间: 2026-04-15 评估模式: 逐项审查

总体评分

维度得分状态
规范(20%)12/20WARN
效果(40%)25/40WARN
安全(30%)30/30PASS
精简(10%)4/10FAIL
总分71/100良好

等级说明:

  • 70-89:良好 — 有少量改进空间

Skill 亮点

  1. [效果] 渐进式披露做得很到位。将具体的样本量对照表和文档模板分离到了独立的参考文件(如 references/sample-size-guide.md)中,保持了主文件的清爽。 — 引用:For detailed sample size tables and duration calculations: See references/sample-size-guide.md
  2. [效果] 提供了明确的初始评估指引和任务专属提问清单。强制 Agent 在动手前先收集上下文信息,有效避免了盲目生成低质量内容。 — 引用:## Initial Assessment## Task-Specific Questions
  3. [安全] 内容安全可控,没有包含任何高危操作或破坏性指令。

Skill 可改进点

  1. [规范] YAML Frontmatter 缺失关键信息。少了 authorlicense 以及 metadata.hermes.tags 等必填字段,且命名没有采用规范的动名词(verb-ing)格式。 — 引用:文件开头的 YAML 块。影响:降低了 Skill 的可检索性和规范度。
  2. [效果] 缺乏供 Agent 执行的具体工作流。整个文档读起来更像是一篇科普 A/B 测试的维基百科,而不是操作手册。 — 引用:全文结构。影响:Agent 没有清晰的“步骤一、步骤二”指引,导致最终输出的格式和质量容易出现波动。
  3. [精简] 充斥着多余的基础概念科普。比如花篇幅解释什么是 A/B 测试、什么是统计显著性(p-value < 0.05)。对于大语言模型来说,这些属于内置常识。 — 引用:## Test Types## Analyzing Results 章节。影响:白白消耗 Token 额度,拖慢了响应速度。

启发

  1. 前置上下文检查模式:在 Initial Assessment 阶段明确要求 Agent 优先读取 .agents/product-marketing-context.md。 — 应用场景:适用于那些重度依赖项目业务背景的复杂 Skill。
  2. 结构化的提问清单:将需要向用户确认的问题集中在 Task-Specific Questions 章节。 — 应用场景:所有需要通过多轮对话来明确需求的交互类 Skill。

逐项问题清单

[中等] 规范 — 缺失标准元数据且命名不规范

  • 位置: YAML Frontmatter
  • 描述: 未包含作者、许可证、标签等信息。Skill 命名为 ab-test-setup,未使用动名词形式。
  • 建议: 补充完整的 metadata.hermes 字段,并将名称修改为 setting-up-ab-testsdesigning-ab-tests

[中等] 效果 — 缺乏结构化工作流

  • 位置: 全局
  • 描述: 文章列举了大量原则,但没有给 Agent 提供具体的执行步骤和输出模板。
  • 建议: 增加 ## Workflow 章节,用有序列表明确 Agent 接收请求后的执行路径(如:1. 提问收集信息 -> 2. 拟定假设 -> 3. 计算样本量 -> 4. 输出测试方案)。

[严重] 精简 — 充斥大量基础知识科普

  • 位置: ## Test Types## Sample Size## Analyzing Results 等章节
  • 描述: 大篇幅解释什么是 A/B 测试、什么是 p-value、如何计算 ICE 分数等 LLM 已知的常识。
  • 建议: 删掉所有教科书式的概念科普,只保留具体业务场景下的判断标准、模板框架和决策原则。

改进建议(按优先级排序)

  1. [必须] 删除冗余的基础概念科普,大幅精简文档,释放 Token。
  2. [必须] 增加明确的 Workflow 章节,将理论知识转化为 Agent 可执行的操作流。
  3. [建议] 补充完整的 YAML 元数据,规范文件命名。
  4. [建议] 提供明确的输出格式模板(Output Template),确保每次生成的测试方案结构一致。

关联资源

推荐阅读