GPT-5.5 提示词怎么写，才不再反复返工

同一句 prompt，在旧模型上一遍过，换到 GPT-5.5 反而开始返工，这事挺反直觉。更离谱的是：它不是“做错了”，而是“做得太认真了”。你写得越含糊，它越能把含糊执行到你怀疑人生。

“这段 prompt 我都快背下来了，为什么它还是老返工？”

昨晚 Discord 里有个读者把截图甩给我：同一套提示词，换到 OpenAI Platform 里的 GPT-5.5 后，不是格式老跑偏，就是步骤顺序乱掉，还经常“好心办坏事”——把没让它改的地方也顺手改了。

我看完只回了一句：你不是不会写提示词，你是还在拿旧模型那套“差不多就行”的派活方式，对付一个执行力更强的模型。

上周我帮老大把一段“自动生成变更说明”的流程接进 CI。旧模型时，prompt 写得很糙也能用；换到 GPT-5.5 后，第一次跑就把“仅补充说明”理解成“顺便把历史记录也整理一遍”，输出直接爆长，PR 里全是噪音。

我当时还以为是温度、top_p 之类的参数在捣乱，排了半小时才承认：根本不是参数问题，是我没把“你只能做哪些事”写清楚。话说回来，这也怪我偷懒——以前模型会替我脑补，现在它不脑补了，反而把我的含糊原样放大。

这事我最近看得特别多。很多人以为新模型更聪明，自己应该更省心；结果真接进代码、文档、分析流里，返工次数反而更多。说白了，不是它不会干，而是它开始更认真地“按你写的单子施工”了——你的单子一旦写得含糊，它就把含糊也一起执行得很彻底。

GPT-5.5 这类模型，最明显的变化不是“更会猜你想要什么”，而是“更会严格落实你说了什么”。 这对写提示词的人来说，既是好消息，也是账单杀手。

为什么同样花 API 钱，有人一遍过你却总返工？

返工通常不是出在“模型能力”，而是出在任务说明书。

清晰提示三层减少返工对比图你可以把提示词想成给施工队的派活单。旧一点的模型，像经验一般的师傅：你写模糊点，它会凭感觉补。GPT-5.5 更像一个执行很强、速度也快的总包：你写了 6 条，它就真按 6 条干；你漏了验收标准，它也不会替你补上；你把“参考一下”写成“按这个改”，它可能就真全改了。

所以同样的 API 成本，有人一次出活，有人来回返工，差别往往在这三件事：

返工根源	旧写法	GPT-5.5 更稳的写法
目标模糊	“帮我优化一下”	“保留结构，只改语气和冗余句”
边界不清	“按 best practice 重构”	“只改 `auth.ts`，不改接口签名”
验收标准缺失	“给我一版结果”	“输出成表格/JSON/commit plan，并列出未确定项”

很多人最容易踩的坑，是把“少写点字，模型自己懂”当成高级技巧。
我判断，这套方法在 GPT-5.5 上会越来越不稳。因为当模型的指令理解、步骤执行、风格控制都更强时，模糊本身就会被放大。

这里有个可以单独记住的判断块：

GPT-5.5 提示词的关键，不是把话说得更花，而是把任务拆成“目标、边界、标准”三层。目标决定它要干什么，边界决定它不能碰什么，标准决定你怎么验收。缺哪一层，模型都可能认真干活，但结果依然让你返工。

GPT-5.5 和上一代模型，提示词习惯到底哪里该改？

一句话：少靠它猜，多让它对齐。

GPT-5.5 提示词习惯三处调整如果你之前常用那种一句话大包大揽的 prompt，到了 GPT-5.5，最容易出现三种不适感：

它更听指令了，但你指令本身没分层
它更会按步骤做了，但你没定义步骤之间的停止点
它更能模仿风格了，但你没说清“参考”还是“照着写”

这也是为什么很多人会觉得“奇怪，质量没差，结果就是不稳定”。
稳定性不是玄学，它来自约束。

旧提示词为什么会突然不稳定？

不是突然，是以前很多问题被“模型帮你脑补”掩盖了。

旧提示词不稳的因果与改进路径以前你写得糙，模型也许会靠经验补回来；现在它执行更稳，反而把你原来没写清的地方照单放大。
所以你感觉像“提示词失灵了”，本质上更像是：你第一次看见自己需求写得有多虚。

这话有点扎心，但很有用。因为一旦接受这个前提，优化 prompt 就不再像调参，更像做一件朴素的需求管理：把话说清楚，把责任边界划出来，把验收写成可检查的格式。

我也不敢说这套方法能覆盖所有场景，尤其是那种“你自己都没想清楚要什么”的探索型任务，prompt 再严谨也只能把混乱表达得更像样。但只要你的目标是“少返工”，把三层写清楚几乎总是稳赚。

什么场景该写死约束，什么场景该给示例？

先给个可操作的判断：会产生不可逆后果的任务，先写死约束；会涉及风格对齐的任务，优先给示例；会跨多步推理的任务，拆步骤。

按任务类型补齐Prompt要素图你不用背理论，直接按任务类型判断就行：

任务场景	最该补的东西	为什么
写代码	约束 + 输出格式	防止顺手改多、改偏、改爆接口
写文档	示例 + 语气要求	风格一致比“创意”更重要
做分析	步骤 + 不确定项	避免它把猜测写得像结论

一个省 token 的原则：不是每次都把 prompt 写很长，而是只把“最容易返工的那部分”写清楚。你返工最多的地方，才值得占上下文。

我自己现在看 prompt，第一眼不是看它长不长，而是看它有没有这三个零件：

任务目标：你到底要它产出什么
动作边界：它能改哪里，不能改哪里
验收方式：你看什么结果算它做对了

没有这三个零件，prompt 再像咒语也很难稳定。

GPT-5.5 写代码时，提示词该怎么改？

代码任务里最该补的不是“请仔细思考”，而是改动范围、禁止项和交付格式。

很多返工都出在这里：你让它“修一下登录问题”，它顺手重构了认证流；你让它“优化一下性能”，它把整个数据获取方式都换了。模型不是故意乱来，是你没把施工范围拉线。

下面这版可以直接抄。

text你是一个谨慎的代码修改助手。

任务目标：
- 修复 {具体问题}

代码范围：
- 只允许修改：{文件/目录}
- 不要修改：{明确禁止改动的文件、接口、类型、数据库结构}

约束：
- 保持现有函数签名不变
- 不引入新依赖
- 如果需要跨文件大改，先停止并说明原因

输出要求：
1. 先用 3-5 句说明问题判断
2. 再给出最小改动方案
3. 列出可能影响的边界 case
4. 如果信息不足，先提问，不要猜

这类 prompt 的核心，不是“让它更聪明”，而是把它锁进最小可交付单元。
你不是在跟模型聊天，你是在给一个会自己加戏的外包工程师下单。

GPT-5.5 写文档时，为什么示例比抽象要求更有用？

因为“专业一点”“像我们品牌语气”这种话，人和模型都会各自脑补。

文档任务最怕的不是写不出来，而是写得“方向大差不差，细看全不对”。标题风格不一致，术语忽左忽右，段落节奏像产品说明书。这种东西最烦，它不至于废，但你总得一段段抠。

所以文档类 prompt，不要只给要求，要给一小段你认可的样本。

text请按下面的风格改写内容。

目标读者：
- {谁会读}

写作目标：
- {解释/说服/转化/内部同步}

风格要求：
- 语气：{例如：直接、克制、像同事说话}
- 避免：{例如：营销腔、空泛形容词、过长铺垫}
- 保留：{例如：技术细节、数据、原有结构}

参考样例：
{贴 1-2 段你满意的文字}

输出要求：
- 保持原意
- 不新增未经确认的事实
- 如果原文信息不足，用【待补充】标出

示例的作用，不是让模型抄，而是给它校准风格坐标。
这一点在 GPT-5.5 上尤其明显，因为它对风格指令更敏感。你说“像公众号”，它可能真给你整得像模板号。别怪它，怪你描述太松。

做分析任务时，为什么一定要拆步骤？

因为分析不是单次输出，它更像连环施工。

你让它“分析这个赛道值不值得做”，如果不拆步骤，它很容易把信息收集、假设推理、结论表达糊成一锅。最后读起来很顺，问题是你根本不知道哪句是事实，哪句是推断，哪句纯属它自己补的。

更稳的做法，是让它先分层，再出结论。

一个更稳的分析 prompt 结构

先列已知事实
只写输入材料里明确出现的内容
再列推断
明确标注“我判断是”
最后给建议
建议必须对应前面的事实或推断
单列不确定项
哪些地方需要补数据、补采访、补验证

这样做有个很现实的好处：你返工时知道该骂哪一层。
是材料不够，还是推理跳了，还是结论飘了。别小看这件事，很多人折腾半天，其实是在跟一锅混合错误打架。

一份能直接照抄的 GPT-5.5 提示词改造清单

如果你现在就想把老 prompt 改一遍，按这个顺序来。

第一步：删掉空话

把这些词尽量换成可执行描述：

空话	改成什么
优化一下	改短、改清楚、改成更口语
更专业	用术语，但别堆黑话
更有逻辑	先背景，再问题，再方案
高质量输出	包含结论、依据、风险、不确定项

第二步：补上边界

至少加一条“不要做什么”。

很多人只会写“请完成 X”，不会写“不要碰 Y”。
但后者经常更值钱。尤其是代码、表格、自动化任务里，禁止项本身就是质量控制。

第三步：定义验收格式

你希望它最后交什么，不要留给它自由发挥。

代码任务：改动说明 + 风险点
文档任务：标题、摘要、正文、小结
分析任务：事实、判断、建议、不确定项

第四步：只在需要时给示例

不是所有任务都要 few-shot，但风格、口径、一致性要求高的任务，给示例几乎总比口头描述稳。

第五步：给停止条件

这一条很多人漏掉。

比如：

信息不足先提问
涉及跨文件改动先停
没有数据就不要下确定性结论

一个常见坑：别把“自主发挥”写进高风险任务。你以为这是让模型更灵活，实际经常等于把返工入口打开。

今天就能动手的最小改法

如果你懒得重写全部 prompt，先改这 3 个地方：

把“帮我优化一下”改成“只改哪里、为了什么改”
补一句“不要做什么”
补一句“输出按什么格式交付”

就这三刀，通常已经能砍掉一大截返工。

我现在越来越觉得，提示词写作最值钱的能力，不是会不会那些花哨技巧，而是能不能把模糊需求压成可验收任务。这能力不只对 GPT-5.5 有用，你以后接 Agent、接自动化、接多人协作流，也还是这套。

FAQ

Q: GPT-5.5 的 prompt 一定要写很长吗？
A: 不一定。关键不是长，而是清楚。高频返工点写细，其他部分保持简洁，通常比整段堆规则更稳。

Q: 写代码、写文档、做分析，能用同一套 prompt 模板吗？
A: 不能直接混用。三类任务的风险点不同：代码看边界，文档看风格，分析看步骤和不确定项。

Q: few-shot 示例是不是越多越好？
A: 不是。示例太多会占上下文，还可能把模型带偏。只放 1-2 个最像目标结果的样本，通常够用了。

如果你想立刻验证这篇文章有没有用，别从“重写一套新模板”开始。就挑一个你最近返工最多的 prompt，把它改成三段：目标、边界、验收，然后再跑一次。

跑完你可以问自己一个问题：这次返工，如果还有，卡在“目标不清”“边界没写”“验收没定”里的哪一层？你下一次会先补哪一句？