ab-test-setup-review
Skill 质量评估报告:ab-test-setup
评估时间: 2026-04-15 评估模式: 逐项审查
总体评分
| 维度 | 得分 | 状态 |
|---|---|---|
| 规范(20%) | 12/20 | WARN |
| 效果(40%) | 25/40 | WARN |
| 安全(30%) | 30/30 | PASS |
| 精简(10%) | 4/10 | FAIL |
| 总分 | 71/100 | 良好 |
等级说明:
- 70-89:良好 — 有少量改进空间
Skill 亮点
- [效果] 渐进式披露做得很到位。将具体的样本量对照表和文档模板分离到了独立的参考文件(如
references/sample-size-guide.md)中,保持了主文件的清爽。 — 引用:For detailed sample size tables and duration calculations: See references/sample-size-guide.md - [效果] 提供了明确的初始评估指引和任务专属提问清单。强制 Agent 在动手前先收集上下文信息,有效避免了盲目生成低质量内容。 — 引用:
## Initial Assessment和## Task-Specific Questions - [安全] 内容安全可控,没有包含任何高危操作或破坏性指令。
Skill 可改进点
- [规范] YAML Frontmatter 缺失关键信息。少了
author、license以及metadata.hermes.tags等必填字段,且命名没有采用规范的动名词(verb-ing)格式。 — 引用:文件开头的 YAML 块。影响:降低了 Skill 的可检索性和规范度。 - [效果] 缺乏供 Agent 执行的具体工作流。整个文档读起来更像是一篇科普 A/B 测试的维基百科,而不是操作手册。 — 引用:全文结构。影响:Agent 没有清晰的“步骤一、步骤二”指引,导致最终输出的格式和质量容易出现波动。
- [精简] 充斥着多余的基础概念科普。比如花篇幅解释什么是 A/B 测试、什么是统计显著性(p-value < 0.05)。对于大语言模型来说,这些属于内置常识。 — 引用:
## Test Types和## Analyzing Results章节。影响:白白消耗 Token 额度,拖慢了响应速度。
启发
- 前置上下文检查模式:在
Initial Assessment阶段明确要求 Agent 优先读取.agents/product-marketing-context.md。 — 应用场景:适用于那些重度依赖项目业务背景的复杂 Skill。 - 结构化的提问清单:将需要向用户确认的问题集中在
Task-Specific Questions章节。 — 应用场景:所有需要通过多轮对话来明确需求的交互类 Skill。
逐项问题清单
[中等] 规范 — 缺失标准元数据且命名不规范
- 位置: YAML Frontmatter
- 描述: 未包含作者、许可证、标签等信息。Skill 命名为
ab-test-setup,未使用动名词形式。 - 建议: 补充完整的
metadata.hermes字段,并将名称修改为setting-up-ab-tests或designing-ab-tests。
[中等] 效果 — 缺乏结构化工作流
- 位置: 全局
- 描述: 文章列举了大量原则,但没有给 Agent 提供具体的执行步骤和输出模板。
- 建议: 增加
## Workflow章节,用有序列表明确 Agent 接收请求后的执行路径(如:1. 提问收集信息 -> 2. 拟定假设 -> 3. 计算样本量 -> 4. 输出测试方案)。
[严重] 精简 — 充斥大量基础知识科普
- 位置:
## Test Types、## Sample Size、## Analyzing Results等章节 - 描述: 大篇幅解释什么是 A/B 测试、什么是 p-value、如何计算 ICE 分数等 LLM 已知的常识。
- 建议: 删掉所有教科书式的概念科普,只保留具体业务场景下的判断标准、模板框架和决策原则。
改进建议(按优先级排序)
- [必须] 删除冗余的基础概念科普,大幅精简文档,释放 Token。
- [必须] 增加明确的
Workflow章节,将理论知识转化为 Agent 可执行的操作流。 - [建议] 补充完整的 YAML 元数据,规范文件命名。
- [建议] 提供明确的输出格式模板(Output Template),确保每次生成的测试方案结构一致。