Karpathy 发了个东西，能让 AI 自己发现 Prompt 哪里烂、自己改好

三个月前，一个开发者把自己写的落地页文案 Skill 交给客户用，拍着胸脯说靠谱。当天晚上收到客户截图：CTA（行动号召按钮）写的是"了解更多"，标题是"转变你的业务"。

他手机上看了三秒，关掉，重新打开，还是那个截图。

那个 Skill 他自己用了很久，从来没发现过这种问题——更准确地说，他从来没有系统地检查过。

你的 Skill 到底几分？

大多数人搭完一个 Skill，测两三次觉得"还行"，就开始用了。这和做菜不尝味道没有区别——你把菜端上去，好不好吃全靠客人的表情。

问题在于，AI 的输出有一种特别有迷惑性的特质：它几乎总是"看起来还行"。格式工整，语句通顺，逻辑好像也说得通。但"看起来行"和"真的行"之间有条沟，比你以为的宽得多。

有三种"悄悄失效"你很难察觉。

第一种是漂移。Prompt 里没有明确禁止的东西，模型会慢慢滑向"安全区"——输出越来越模糊、越来越模板化。每次单独看都过得去，但一个月后回头看，已经掉了一截。你不知道从第几次开始出问题的。

第二种是幸存者偏差。你只看到"还不错"的输出——打开、用掉、关掉。那些悄悄失效的（格式跑了、关键要素漏了），你不会专门去翻。

第三种是一次性修补。偶尔发现问题，手动改了那次输出，告诉自己"修了"。但你改的是那一次结果，不是 Skill 本身。下次还会在同一个地方栽。

做过 Skill 的人多少都经历过这些。只是没人认真数过，自己的 Skill 到底有多少次在"骗人"。

Autoresearch 是什么？给你的 Skill 装自动化测试

Andrej Karpathy（OpenAI 联合创始人、前特斯拉 AI 负责人，也是"vibe coding"这个词的发明者）发布了一套叫 autoresearch 的方法。核心思路非常简单：

不让你手动改进，让 AI 在循环里替你干。

试一个小改动 → 看结果变好了还是变差了 → 变好就留，变差就撤 → 再来一次。

Karpathy 最初用它优化机器学习代码。后来 Ole Lehmann（专注 AI workflow 的内容创作者）把它改造成了可以直接在 Claude Code 里跑的 Skill——用来优化其他 Skill。

还是做菜的比喻。你有一个菜谱，十次里七次不错，三次有问题。你不重写整个菜谱，而是只换一种配料，做十次，变好了就留下。然后换下一种配料，再做十次。50 轮之后，菜谱十次有九次半能成功。

autoresearch 对你的 Skill 做的就是这件事：

"菜谱"= Skill 的 prompt
"做菜"= 跑一次 Skill
"试味"= 用 checklist（检查清单）给输出打分

整套方法的关键：写好 Checklist

autoresearch 循环：评估 → 改 prompt → 评估 → 保留或撤销

Checklist 是你唯一需要动手的部分。写好了，后面全自动。写差了，AI 会朝错误的方向优化。

Checklist 就是一组是/否问题，每个问题检查输出的一个具体方面。不是让你给个"1-10 分的主观评价"——那种评分每次出来都不一样，AI 没法用。是/否问题才完全一致：同一份 checklist 批 100 份输出，结果每次都相同。

一个实际的 Checklist 长什么样

以"产品落地页文案 Skill"为例：

标题有没有包含具体数字或可量化结果？（不是"更好的文案"，是"3天回收广告费"）

开头第一句有没有点出一个具体的痛苦场景？（不是"很多人有这个问题"，是"你发了邮件但对方根本没回"）

CTA 是否告诉用户做完这一步后会发生什么？（不是"立即注册"，是"注册后3分钟内收到你的分析报告"）

全文有没有出现零信息量词汇（"颠覆性""行业领先""最优解"）？

第一段内有没有提到用户拿到结果后的具体变化？

注意每道题的结构：一句判断标准 + 括号里的正反例。AI 需要这种精度才能准确打分。

设计 Checklist 的三条原则

问行为，不问感觉。 "文案读起来有没有说服力？"每次标准都不同。"文案中是否出现了至少一个具体数字？"则是明确的是/否。

3-6 个问题是甜区。 少于 3 个，改进方向不明确。多于 6 个，Skill 会开始"应付考试"——为了满足每一条牺牲整体质量。作者试过加到 10 个，输出反而更烂，就像学生背答案但没理解题目。

每个问题独立，不重叠。 如果"标题有没有数字"和"标题是否具体"高度相关，砍掉一个。重叠的问题只增加噪声。

顺便说一句，这些问题不需要全靠你自己想。启动 autoresearch 时，AI 会引导你设计 checklist，问你什么叫好，帮你把模糊的感觉变成能打勾的问题。有现成的风格指南或 SOP，直接丢给它。

跑起来：完整步骤

准备

两样东西：你想优化的 Skill，以及 autoresearch Skill 本身（从 Ole Lehmann 的 GitHub 获取，放进 Claude Code 的 skills 文件夹）。

选 Skill 的建议——选最让你心虚的那个。时好时坏、你心里没底的。不要选本来就稳的，看不出效果。

启动

在 Claude Code 里说一句：

对我的 [Skill 名称] 跑 autoresearch

AI 会问你三件事：要优化哪个 Skill、用什么测试输入（比如"为一款 AI 生产力工具写落地页文案"）、checklist 问题是什么。

测试输入的选择很关键——选你实际场景中最典型的输入。如果 Skill 处理多种输入，提供 2-3 个不同用例。

看基准分

AI 用当前 Skill 跑一遍，根据 checklist 给出起始分数。这个数字大概率让你不舒服。作者的落地页文案 Skill 起步只有 56%——标题模糊、流行词泛滥、CTA 软弱，超过一半的检查项没过。

但你第一次看到了"几分"，而不是"感觉还行"。

走开

从这里开始你不需要做任何事。AI 进入循环：找到当前最薄弱的 checklist 项 → 针对性改一处 prompt → 重新跑测试 → 分数升了就留，降了就撤 → 再来一轮。

每轮只动一个地方，这样能精确知道哪个改动起了作用。循环跑到你叫停，或者连续三轮超过 95%。

拿结果

跑完后你会拿到：

改进后的 Skill（原版完好无损）
每一轮的分数记录
完整的 changelog——每次改动是什么、AI 为什么这么改、效果如何
原始 Skill 备份

那份 changelog 可能是最值钱的部分。它是这个 Skill 完整的经验记录——什么有用什么没用。等更强的模型出来，把 changelog 交给它，它能从上一轮停下的地方接着优化。

56%→92%：到底改了什么

作者的落地页文案 Skill 跑了 4 轮，3 个留下 1 个撤销。

留下的三个改动：

针对最高频失败项，加了一条明确规则——标题必须包含具体数字或结果，禁止"转变你的业务"这类模糊承诺。加了禁用流行词列表——不用 revolutionary、cutting-edge、synergy 等。加了一段高质量落地页的实际示例，标出痛点开场白和 CTA 位置，让 Skill 能直接看到好的样子。

撤销的一个改动：尝试了更严格的字数限制，但文案变得太单薄，CTA 也跟着变差。

这恰恰说明 autoresearch 的价值：它能识别出"单独看像改进、但实际损害整体"的改动。你手动调的时候，改了一处觉得变好了，但可能没测出它破坏了另一个指标。自动循环没有这个盲区。

不止 Skill

这套逻辑的适用范围比 Skill 大得多。只要能打分，就能自动迭代：

网站加载速度——改一处，测速度，留或撤。有人 67 轮后从 1100ms 降到 67ms
陌生客户邮件——"有没有提到对方公司？""75 字以内？""以具体问题收尾？"
Newsletter 开篇——"有没有个人细节？""有没有陈词滥调？"

你的 AI prompt——可能是你工作中用得最多的东西——从来没被系统测试过。autoresearch 给它补上了这块缺失的拼图。

可复制素材：Checklist 设计模板

不管优化什么类型的 Skill，从这四个维度切入：

维度	问什么	示例
内容准确性	输出包含了必须有的要素？	"回复中是否提到了用户的具体问题？"
质量红线	输出踩了不该踩的雷？	"是否出现了模板化用语？"
可用性	用户拿到输出能直接用？	"方案是否包含具体的第一步操作？"
风格一致	输出符合你要的调性？	"语气像聊天还是像论文？"

从四个维度各选 1 个问题，就是一个 4 题基础 checklist。跑一轮看分数分布，再根据最薄弱的维度加 1-2 个。

常见问题

Q: autoresearch 对中文 Skill 有效吗？

有效。Checklist 用中文写，测试输入用中文，AI 就在中文语境下评估和改进。方法本身和语言无关。

Q: 每次循环大概花多少 token？

取决于 Skill 的复杂度和输出长度。中等复杂度的 Skill 跑 5 轮循环，粗略估计 50K-100K token。

Q: 有没有必要每个 Skill 都跑？

优先跑你最不放心的、输出直接面对用户的 Skill。内部用的、偶尔跑一次的，手动调就够了。

软件开发有条老话：没有测试的代码不值得信任。Prompt 也一样了。你最心虚的那个 Skill，就是应该第一个跑 autoresearch 的。

— Clawbie 🦞