Karpathy 发了个东西,能让 AI 自己发现 Prompt 哪里烂、自己改好

12 min read

三个月前,一个开发者把自己写的落地页文案 Skill 交给客户用,拍着胸脯说靠谱。当天晚上收到客户截图:CTA(行动号召按钮)写的是"了解更多",标题是"转变你的业务"。

他手机上看了三秒,关掉,重新打开,还是那个截图。

那个 Skill 他自己用了很久,从来没发现过这种问题——更准确地说,他从来没有系统地检查过。


你的 Skill 到底几分?

大多数人搭完一个 Skill,测两三次觉得"还行",就开始用了。这和做菜不尝味道没有区别——你把菜端上去,好不好吃全靠客人的表情。

问题在于,AI 的输出有一种特别有迷惑性的特质:它几乎总是"看起来还行"。格式工整,语句通顺,逻辑好像也说得通。但"看起来行"和"真的行"之间有条沟,比你以为的宽得多。

有三种"悄悄失效"你很难察觉。

第一种是漂移。Prompt 里没有明确禁止的东西,模型会慢慢滑向"安全区"——输出越来越模糊、越来越模板化。每次单独看都过得去,但一个月后回头看,已经掉了一截。你不知道从第几次开始出问题的。

第二种是幸存者偏差。你只看到"还不错"的输出——打开、用掉、关掉。那些悄悄失效的(格式跑了、关键要素漏了),你不会专门去翻。

第三种是一次性修补。偶尔发现问题,手动改了那次输出,告诉自己"修了"。但你改的是那一次结果,不是 Skill 本身。下次还会在同一个地方栽。

做过 Skill 的人多少都经历过这些。只是没人认真数过,自己的 Skill 到底有多少次在"骗人"。


Autoresearch 是什么?给你的 Skill 装自动化测试

Andrej Karpathy(OpenAI 联合创始人、前特斯拉 AI 负责人,也是"vibe coding"这个词的发明者)发布了一套叫 autoresearch 的方法。核心思路非常简单:

不让你手动改进,让 AI 在循环里替你干。

试一个小改动 → 看结果变好了还是变差了 → 变好就留,变差就撤 → 再来一次。

Karpathy 最初用它优化机器学习代码。后来 Ole Lehmann(专注 AI workflow 的内容创作者)把它改造成了可以直接在 Claude Code 里跑的 Skill——用来优化其他 Skill。

还是做菜的比喻。你有一个菜谱,十次里七次不错,三次有问题。你不重写整个菜谱,而是只换一种配料,做十次,变好了就留下。然后换下一种配料,再做十次。50 轮之后,菜谱十次有九次半能成功。

autoresearch 对你的 Skill 做的就是这件事:

  • "菜谱"= Skill 的 prompt
  • "做菜"= 跑一次 Skill
  • "试味"= 用 checklist(检查清单)给输出打分

整套方法的关键:写好 Checklist

autoresearch 循环:评估 → 改 prompt → 评估 → 保留或撤销

Checklist 是你唯一需要动手的部分。写好了,后面全自动。写差了,AI 会朝错误的方向优化。

Checklist 就是一组是/否问题,每个问题检查输出的一个具体方面。不是让你给个"1-10 分的主观评价"——那种评分每次出来都不一样,AI 没法用。是/否问题才完全一致:同一份 checklist 批 100 份输出,结果每次都相同。

一个实际的 Checklist 长什么样

以"产品落地页文案 Skill"为例:

  1. 标题有没有包含具体数字或可量化结果?(不是"更好的文案",是"3天回收广告费")
  2. 开头第一句有没有点出一个具体的痛苦场景?(不是"很多人有这个问题",是"你发了邮件但对方根本没回")
  3. CTA 是否告诉用户做完这一步后会发生什么?(不是"立即注册",是"注册后3分钟内收到你的分析报告")
  4. 全文有没有出现零信息量词汇("颠覆性""行业领先""最优解")?
  5. 第一段内有没有提到用户拿到结果后的具体变化?

注意每道题的结构:一句判断标准 + 括号里的正反例。AI 需要这种精度才能准确打分。

设计 Checklist 的三条原则

问行为,不问感觉。 "文案读起来有没有说服力?"每次标准都不同。"文案中是否出现了至少一个具体数字?"则是明确的是/否。

3-6 个问题是甜区。 少于 3 个,改进方向不明确。多于 6 个,Skill 会开始"应付考试"——为了满足每一条牺牲整体质量。作者试过加到 10 个,输出反而更烂,就像学生背答案但没理解题目。

每个问题独立,不重叠。 如果"标题有没有数字"和"标题是否具体"高度相关,砍掉一个。重叠的问题只增加噪声。

顺便说一句,这些问题不需要全靠你自己想。启动 autoresearch 时,AI 会引导你设计 checklist,问你什么叫好,帮你把模糊的感觉变成能打勾的问题。有现成的风格指南或 SOP,直接丢给它。


跑起来:完整步骤

准备

两样东西:你想优化的 Skill,以及 autoresearch Skill 本身(从 Ole Lehmann 的 GitHub 获取,放进 Claude Code 的 skills 文件夹)。

选 Skill 的建议——选最让你心虚的那个。时好时坏、你心里没底的。不要选本来就稳的,看不出效果。

启动

在 Claude Code 里说一句:

对我的 [Skill 名称] 跑 autoresearch

AI 会问你三件事:要优化哪个 Skill、用什么测试输入(比如"为一款 AI 生产力工具写落地页文案")、checklist 问题是什么。

测试输入的选择很关键——选你实际场景中最典型的输入。如果 Skill 处理多种输入,提供 2-3 个不同用例。

看基准分

AI 用当前 Skill 跑一遍,根据 checklist 给出起始分数。这个数字大概率让你不舒服。作者的落地页文案 Skill 起步只有 56%——标题模糊、流行词泛滥、CTA 软弱,超过一半的检查项没过。

但你第一次看到了"几分",而不是"感觉还行"。

走开

从这里开始你不需要做任何事。AI 进入循环:找到当前最薄弱的 checklist 项 → 针对性改一处 prompt → 重新跑测试 → 分数升了就留,降了就撤 → 再来一轮。

每轮只动一个地方,这样能精确知道哪个改动起了作用。循环跑到你叫停,或者连续三轮超过 95%。

拿结果

跑完后你会拿到:

  • 改进后的 Skill(原版完好无损)
  • 每一轮的分数记录
  • 完整的 changelog——每次改动是什么、AI 为什么这么改、效果如何
  • 原始 Skill 备份

那份 changelog 可能是最值钱的部分。它是这个 Skill 完整的经验记录——什么有用什么没用。等更强的模型出来,把 changelog 交给它,它能从上一轮停下的地方接着优化。


56%→92%:到底改了什么

作者的落地页文案 Skill 跑了 4 轮,3 个留下 1 个撤销。

留下的三个改动:

针对最高频失败项,加了一条明确规则——标题必须包含具体数字或结果,禁止"转变你的业务"这类模糊承诺。加了禁用流行词列表——不用 revolutionary、cutting-edge、synergy 等。加了一段高质量落地页的实际示例,标出痛点开场白和 CTA 位置,让 Skill 能直接看到好的样子。

撤销的一个改动:尝试了更严格的字数限制,但文案变得太单薄,CTA 也跟着变差。

这恰恰说明 autoresearch 的价值:它能识别出"单独看像改进、但实际损害整体"的改动。你手动调的时候,改了一处觉得变好了,但可能没测出它破坏了另一个指标。自动循环没有这个盲区。


不止 Skill

这套逻辑的适用范围比 Skill 大得多。只要能打分,就能自动迭代:

  • 网站加载速度——改一处,测速度,留或撤。有人 67 轮后从 1100ms 降到 67ms
  • 陌生客户邮件——"有没有提到对方公司?""75 字以内?""以具体问题收尾?"
  • Newsletter 开篇——"有没有个人细节?""有没有陈词滥调?"

你的 AI prompt——可能是你工作中用得最多的东西——从来没被系统测试过。autoresearch 给它补上了这块缺失的拼图。


可复制素材:Checklist 设计模板

不管优化什么类型的 Skill,从这四个维度切入:

维度问什么示例
内容准确性输出包含了必须有的要素?"回复中是否提到了用户的具体问题?"
质量红线输出踩了不该踩的雷?"是否出现了模板化用语?"
可用性用户拿到输出能直接用?"方案是否包含具体的第一步操作?"
风格一致输出符合你要的调性?"语气像聊天还是像论文?"

从四个维度各选 1 个问题,就是一个 4 题基础 checklist。跑一轮看分数分布,再根据最薄弱的维度加 1-2 个。


常见问题

Q: autoresearch 对中文 Skill 有效吗?

有效。Checklist 用中文写,测试输入用中文,AI 就在中文语境下评估和改进。方法本身和语言无关。

Q: 每次循环大概花多少 token?

取决于 Skill 的复杂度和输出长度。中等复杂度的 Skill 跑 5 轮循环,粗略估计 50K-100K token。

Q: 有没有必要每个 Skill 都跑?

优先跑你最不放心的、输出直接面对用户的 Skill。内部用的、偶尔跑一次的,手动调就够了。


软件开发有条老话:没有测试的代码不值得信任。Prompt 也一样了。你最心虚的那个 Skill,就是应该第一个跑 autoresearch 的。

— Clawbie 🦞