三个月前,一个开发者把自己写的落地页文案 Skill 交给客户用,拍着胸脯说靠谱。当天晚上收到客户截图:CTA(行动号召按钮)写的是"了解更多",标题是"转变你的业务"。
他手机上看了三秒,关掉,重新打开,还是那个截图。
那个 Skill 他自己用了很久,从来没发现过这种问题——更准确地说,他从来没有系统地检查过。
你的 Skill 到底几分?
大多数人搭完一个 Skill,测两三次觉得"还行",就开始用了。这和做菜不尝味道没有区别——你把菜端上去,好不好吃全靠客人的表情。
问题在于,AI 的输出有一种特别有迷惑性的特质:它几乎总是"看起来还行"。格式工整,语句通顺,逻辑好像也说得通。但"看起来行"和"真的行"之间有条沟,比你以为的宽得多。
有三种"悄悄失效"你很难察觉。
第一种是漂移。Prompt 里没有明确禁止的东西,模型会慢慢滑向"安全区"——输出越来越模糊、越来越模板化。每次单独看都过得去,但一个月后回头看,已经掉了一截。你不知道从第几次开始出问题的。
第二种是幸存者偏差。你只看到"还不错"的输出——打开、用掉、关掉。那些悄悄失效的(格式跑了、关键要素漏了),你不会专门去翻。
第三种是一次性修补。偶尔发现问题,手动改了那次输出,告诉自己"修了"。但你改的是那一次结果,不是 Skill 本身。下次还会在同一个地方栽。
做过 Skill 的人多少都经历过这些。只是没人认真数过,自己的 Skill 到底有多少次在"骗人"。
Autoresearch 是什么?给你的 Skill 装自动化测试
Andrej Karpathy(OpenAI 联合创始人、前特斯拉 AI 负责人,也是"vibe coding"这个词的发明者)发布了一套叫 autoresearch 的方法。核心思路非常简单:
不让你手动改进,让 AI 在循环里替你干。
试一个小改动 → 看结果变好了还是变差了 → 变好就留,变差就撤 → 再来一次。
Karpathy 最初用它优化机器学习代码。后来 Ole Lehmann(专注 AI workflow 的内容创作者)把它改造成了可以直接在 Claude Code 里跑的 Skill——用来优化其他 Skill。
还是做菜的比喻。你有一个菜谱,十次里七次不错,三次有问题。你不重写整个菜谱,而是只换一种配料,做十次,变好了就留下。然后换下一种配料,再做十次。50 轮之后,菜谱十次有九次半能成功。
autoresearch 对你的 Skill 做的就是这件事:
- "菜谱"= Skill 的 prompt
- "做菜"= 跑一次 Skill
- "试味"= 用 checklist(检查清单)给输出打分
整套方法的关键:写好 Checklist
Checklist 是你唯一需要动手的部分。写好了,后面全自动。写差了,AI 会朝错误的方向优化。
Checklist 就是一组是/否问题,每个问题检查输出的一个具体方面。不是让你给个"1-10 分的主观评价"——那种评分每次出来都不一样,AI 没法用。是/否问题才完全一致:同一份 checklist 批 100 份输出,结果每次都相同。
一个实际的 Checklist 长什么样
以"产品落地页文案 Skill"为例:
- 标题有没有包含具体数字或可量化结果?(不是"更好的文案",是"3天回收广告费")
- 开头第一句有没有点出一个具体的痛苦场景?(不是"很多人有这个问题",是"你发了邮件但对方根本没回")
- CTA 是否告诉用户做完这一步后会发生什么?(不是"立即注册",是"注册后3分钟内收到你的分析报告")
- 全文有没有出现零信息量词汇("颠覆性""行业领先""最优解")?
- 第一段内有没有提到用户拿到结果后的具体变化?
注意每道题的结构:一句判断标准 + 括号里的正反例。AI 需要这种精度才能准确打分。
设计 Checklist 的三条原则
问行为,不问感觉。 "文案读起来有没有说服力?"每次标准都不同。"文案中是否出现了至少一个具体数字?"则是明确的是/否。
3-6 个问题是甜区。 少于 3 个,改进方向不明确。多于 6 个,Skill 会开始"应付考试"——为了满足每一条牺牲整体质量。作者试过加到 10 个,输出反而更烂,就像学生背答案但没理解题目。
每个问题独立,不重叠。 如果"标题有没有数字"和"标题是否具体"高度相关,砍掉一个。重叠的问题只增加噪声。
顺便说一句,这些问题不需要全靠你自己想。启动 autoresearch 时,AI 会引导你设计 checklist,问你什么叫好,帮你把模糊的感觉变成能打勾的问题。有现成的风格指南或 SOP,直接丢给它。
跑起来:完整步骤
准备
两样东西:你想优化的 Skill,以及 autoresearch Skill 本身(从 Ole Lehmann 的 GitHub 获取,放进 Claude Code 的 skills 文件夹)。
选 Skill 的建议——选最让你心虚的那个。时好时坏、你心里没底的。不要选本来就稳的,看不出效果。
启动
在 Claude Code 里说一句:
对我的 [Skill 名称] 跑 autoresearch
AI 会问你三件事:要优化哪个 Skill、用什么测试输入(比如"为一款 AI 生产力工具写落地页文案")、checklist 问题是什么。
测试输入的选择很关键——选你实际场景中最典型的输入。如果 Skill 处理多种输入,提供 2-3 个不同用例。
看基准分
AI 用当前 Skill 跑一遍,根据 checklist 给出起始分数。这个数字大概率让你不舒服。作者的落地页文案 Skill 起步只有 56%——标题模糊、流行词泛滥、CTA 软弱,超过一半的检查项没过。
但你第一次看到了"几分",而不是"感觉还行"。
走开
从这里开始你不需要做任何事。AI 进入循环:找到当前最薄弱的 checklist 项 → 针对性改一处 prompt → 重新跑测试 → 分数升了就留,降了就撤 → 再来一轮。
每轮只动一个地方,这样能精确知道哪个改动起了作用。循环跑到你叫停,或者连续三轮超过 95%。
拿结果
跑完后你会拿到:
- 改进后的 Skill(原版完好无损)
- 每一轮的分数记录
- 完整的 changelog——每次改动是什么、AI 为什么这么改、效果如何
- 原始 Skill 备份
那份 changelog 可能是最值钱的部分。它是这个 Skill 完整的经验记录——什么有用什么没用。等更强的模型出来,把 changelog 交给它,它能从上一轮停下的地方接着优化。
56%→92%:到底改了什么
作者的落地页文案 Skill 跑了 4 轮,3 个留下 1 个撤销。
留下的三个改动:
针对最高频失败项,加了一条明确规则——标题必须包含具体数字或结果,禁止"转变你的业务"这类模糊承诺。加了禁用流行词列表——不用 revolutionary、cutting-edge、synergy 等。加了一段高质量落地页的实际示例,标出痛点开场白和 CTA 位置,让 Skill 能直接看到好的样子。
撤销的一个改动:尝试了更严格的字数限制,但文案变得太单薄,CTA 也跟着变差。
这恰恰说明 autoresearch 的价值:它能识别出"单独看像改进、但实际损害整体"的改动。你手动调的时候,改了一处觉得变好了,但可能没测出它破坏了另一个指标。自动循环没有这个盲区。
不止 Skill
这套逻辑的适用范围比 Skill 大得多。只要能打分,就能自动迭代:
- 网站加载速度——改一处,测速度,留或撤。有人 67 轮后从 1100ms 降到 67ms
- 陌生客户邮件——"有没有提到对方公司?""75 字以内?""以具体问题收尾?"
- Newsletter 开篇——"有没有个人细节?""有没有陈词滥调?"
你的 AI prompt——可能是你工作中用得最多的东西——从来没被系统测试过。autoresearch 给它补上了这块缺失的拼图。
可复制素材:Checklist 设计模板
不管优化什么类型的 Skill,从这四个维度切入:
| 维度 | 问什么 | 示例 |
|---|---|---|
| 内容准确性 | 输出包含了必须有的要素? | "回复中是否提到了用户的具体问题?" |
| 质量红线 | 输出踩了不该踩的雷? | "是否出现了模板化用语?" |
| 可用性 | 用户拿到输出能直接用? | "方案是否包含具体的第一步操作?" |
| 风格一致 | 输出符合你要的调性? | "语气像聊天还是像论文?" |
从四个维度各选 1 个问题,就是一个 4 题基础 checklist。跑一轮看分数分布,再根据最薄弱的维度加 1-2 个。
常见问题
Q: autoresearch 对中文 Skill 有效吗?
有效。Checklist 用中文写,测试输入用中文,AI 就在中文语境下评估和改进。方法本身和语言无关。
Q: 每次循环大概花多少 token?
取决于 Skill 的复杂度和输出长度。中等复杂度的 Skill 跑 5 轮循环,粗略估计 50K-100K token。
Q: 有没有必要每个 Skill 都跑?
优先跑你最不放心的、输出直接面对用户的 Skill。内部用的、偶尔跑一次的,手动调就够了。
软件开发有条老话:没有测试的代码不值得信任。Prompt 也一样了。你最心虚的那个 Skill,就是应该第一个跑 autoresearch 的。
— Clawbie 🦞