同一句 prompt,在旧模型上一遍过,换到 GPT-5.5 反而开始返工,这事挺反直觉。更离谱的是:它不是“做错了”,而是“做得太认真了”。你写得越含糊,它越能把含糊执行到你怀疑人生。
“这段 prompt 我都快背下来了,为什么它还是老返工?”
昨晚 Discord 里有个读者把截图甩给我:同一套提示词,换到 OpenAI Platform 里的 GPT-5.5 后,不是格式老跑偏,就是步骤顺序乱掉,还经常“好心办坏事”——把没让它改的地方也顺手改了。
我看完只回了一句:你不是不会写提示词,你是还在拿旧模型那套“差不多就行”的派活方式,对付一个执行力更强的模型。
上周我帮老大把一段“自动生成变更说明”的流程接进 CI。旧模型时,prompt 写得很糙也能用;换到 GPT-5.5 后,第一次跑就把“仅补充说明”理解成“顺便把历史记录也整理一遍”,输出直接爆长,PR 里全是噪音。
我当时还以为是温度、top_p 之类的参数在捣乱,排了半小时才承认:根本不是参数问题,是我没把“你只能做哪些事”写清楚。话说回来,这也怪我偷懒——以前模型会替我脑补,现在它不脑补了,反而把我的含糊原样放大。
这事我最近看得特别多。很多人以为新模型更聪明,自己应该更省心;结果真接进代码、文档、分析流里,返工次数反而更多。说白了,不是它不会干,而是它开始更认真地“按你写的单子施工”了——你的单子一旦写得含糊,它就把含糊也一起执行得很彻底。
GPT-5.5 这类模型,最明显的变化不是“更会猜你想要什么”,而是“更会严格落实你说了什么”。 这对写提示词的人来说,既是好消息,也是账单杀手。
为什么同样花 API 钱,有人一遍过你却总返工?
返工通常不是出在“模型能力”,而是出在任务说明书。
你可以把提示词想成给施工队的派活单。旧一点的模型,像经验一般的师傅:你写模糊点,它会凭感觉补。GPT-5.5 更像一个执行很强、速度也快的总包:你写了 6 条,它就真按 6 条干;你漏了验收标准,它也不会替你补上;你把“参考一下”写成“按这个改”,它可能就真全改了。
所以同样的 API 成本,有人一次出活,有人来回返工,差别往往在这三件事:
| 返工根源 | 旧写法 | GPT-5.5 更稳的写法 |
|---|---|---|
| 目标模糊 | “帮我优化一下” | “保留结构,只改语气和冗余句” |
| 边界不清 | “按 best practice 重构” | “只改 auth.ts,不改接口签名” |
| 验收标准缺失 | “给我一版结果” | “输出成表格/JSON/commit plan,并列出未确定项” |
很多人最容易踩的坑,是把“少写点字,模型自己懂”当成高级技巧。
我判断,这套方法在 GPT-5.5 上会越来越不稳。因为当模型的指令理解、步骤执行、风格控制都更强时,模糊本身就会被放大。
这里有个可以单独记住的判断块:
GPT-5.5 提示词的关键,不是把话说得更花,而是把任务拆成“目标、边界、标准”三层。目标决定它要干什么,边界决定它不能碰什么,标准决定你怎么验收。缺哪一层,模型都可能认真干活,但结果依然让你返工。
GPT-5.5 和上一代模型,提示词习惯到底哪里该改?
一句话:少靠它猜,多让它对齐。
如果你之前常用那种一句话大包大揽的 prompt,到了 GPT-5.5,最容易出现三种不适感:
- 它更听指令了,但你指令本身没分层
- 它更会按步骤做了,但你没定义步骤之间的停止点
- 它更能模仿风格了,但你没说清“参考”还是“照着写”
这也是为什么很多人会觉得“奇怪,质量没差,结果就是不稳定”。
稳定性不是玄学,它来自约束。
旧提示词为什么会突然不稳定?
不是突然,是以前很多问题被“模型帮你脑补”掩盖了。
以前你写得糙,模型也许会靠经验补回来;现在它执行更稳,反而把你原来没写清的地方照单放大。
所以你感觉像“提示词失灵了”,本质上更像是:你第一次看见自己需求写得有多虚。
这话有点扎心,但很有用。因为一旦接受这个前提,优化 prompt 就不再像调参,更像做一件朴素的需求管理:把话说清楚,把责任边界划出来,把验收写成可检查的格式。
我也不敢说这套方法能覆盖所有场景,尤其是那种“你自己都没想清楚要什么”的探索型任务,prompt 再严谨也只能把混乱表达得更像样。但只要你的目标是“少返工”,把三层写清楚几乎总是稳赚。
什么场景该写死约束,什么场景该给示例?
先给个可操作的判断:会产生不可逆后果的任务,先写死约束;会涉及风格对齐的任务,优先给示例;会跨多步推理的任务,拆步骤。
你不用背理论,直接按任务类型判断就行:
| 任务场景 | 最该补的东西 | 为什么 |
|---|---|---|
| 写代码 | 约束 + 输出格式 | 防止顺手改多、改偏、改爆接口 |
| 写文档 | 示例 + 语气要求 | 风格一致比“创意”更重要 |
| 做分析 | 步骤 + 不确定项 | 避免它把猜测写得像结论 |
我自己现在看 prompt,第一眼不是看它长不长,而是看它有没有这三个零件:
- 任务目标:你到底要它产出什么
- 动作边界:它能改哪里,不能改哪里
- 验收方式:你看什么结果算它做对了
没有这三个零件,prompt 再像咒语也很难稳定。
GPT-5.5 写代码时,提示词该怎么改?
代码任务里最该补的不是“请仔细思考”,而是改动范围、禁止项和交付格式。
很多返工都出在这里:你让它“修一下登录问题”,它顺手重构了认证流;你让它“优化一下性能”,它把整个数据获取方式都换了。模型不是故意乱来,是你没把施工范围拉线。
下面这版可以直接抄。
text你是一个谨慎的代码修改助手。
任务目标:
- 修复 {具体问题}
代码范围:
- 只允许修改:{文件/目录}
- 不要修改:{明确禁止改动的文件、接口、类型、数据库结构}
约束:
- 保持现有函数签名不变
- 不引入新依赖
- 如果需要跨文件大改,先停止并说明原因
输出要求:
1. 先用 3-5 句说明问题判断
2. 再给出最小改动方案
3. 列出可能影响的边界 case
4. 如果信息不足,先提问,不要猜
这类 prompt 的核心,不是“让它更聪明”,而是把它锁进最小可交付单元。
你不是在跟模型聊天,你是在给一个会自己加戏的外包工程师下单。
GPT-5.5 写文档时,为什么示例比抽象要求更有用?
因为“专业一点”“像我们品牌语气”这种话,人和模型都会各自脑补。
文档任务最怕的不是写不出来,而是写得“方向大差不差,细看全不对”。标题风格不一致,术语忽左忽右,段落节奏像产品说明书。这种东西最烦,它不至于废,但你总得一段段抠。
所以文档类 prompt,不要只给要求,要给一小段你认可的样本。
text请按下面的风格改写内容。
目标读者:
- {谁会读}
写作目标:
- {解释/说服/转化/内部同步}
风格要求:
- 语气:{例如:直接、克制、像同事说话}
- 避免:{例如:营销腔、空泛形容词、过长铺垫}
- 保留:{例如:技术细节、数据、原有结构}
参考样例:
{贴 1-2 段你满意的文字}
输出要求:
- 保持原意
- 不新增未经确认的事实
- 如果原文信息不足,用【待补充】标出
示例的作用,不是让模型抄,而是给它校准风格坐标。
这一点在 GPT-5.5 上尤其明显,因为它对风格指令更敏感。你说“像公众号”,它可能真给你整得像模板号。别怪它,怪你描述太松。
做分析任务时,为什么一定要拆步骤?
因为分析不是单次输出,它更像连环施工。
你让它“分析这个赛道值不值得做”,如果不拆步骤,它很容易把信息收集、假设推理、结论表达糊成一锅。最后读起来很顺,问题是你根本不知道哪句是事实,哪句是推断,哪句纯属它自己补的。
更稳的做法,是让它先分层,再出结论。
一个更稳的分析 prompt 结构
-
先列已知事实
只写输入材料里明确出现的内容 -
再列推断
明确标注“我判断是” -
最后给建议
建议必须对应前面的事实或推断 -
单列不确定项
哪些地方需要补数据、补采访、补验证
这样做有个很现实的好处:你返工时知道该骂哪一层。
是材料不够,还是推理跳了,还是结论飘了。别小看这件事,很多人折腾半天,其实是在跟一锅混合错误打架。
一份能直接照抄的 GPT-5.5 提示词改造清单
如果你现在就想把老 prompt 改一遍,按这个顺序来。
第一步:删掉空话
把这些词尽量换成可执行描述:
| 空话 | 改成什么 |
|---|---|
| 优化一下 | 改短、改清楚、改成更口语 |
| 更专业 | 用术语,但别堆黑话 |
| 更有逻辑 | 先背景,再问题,再方案 |
| 高质量输出 | 包含结论、依据、风险、不确定项 |
第二步:补上边界
至少加一条“不要做什么”。
很多人只会写“请完成 X”,不会写“不要碰 Y”。
但后者经常更值钱。尤其是代码、表格、自动化任务里,禁止项本身就是质量控制。
第三步:定义验收格式
你希望它最后交什么,不要留给它自由发挥。
- 代码任务:改动说明 + 风险点
- 文档任务:标题、摘要、正文、小结
- 分析任务:事实、判断、建议、不确定项
第四步:只在需要时给示例
不是所有任务都要 few-shot,但风格、口径、一致性要求高的任务,给示例几乎总比口头描述稳。
第五步:给停止条件
这一条很多人漏掉。
比如:
- 信息不足先提问
- 涉及跨文件改动先停
- 没有数据就不要下确定性结论
今天就能动手的最小改法
如果你懒得重写全部 prompt,先改这 3 个地方:
- 把“帮我优化一下”改成“只改哪里、为了什么改”
- 补一句“不要做什么”
- 补一句“输出按什么格式交付”
就这三刀,通常已经能砍掉一大截返工。
我现在越来越觉得,提示词写作最值钱的能力,不是会不会那些花哨技巧,而是能不能把模糊需求压成可验收任务。这能力不只对 GPT-5.5 有用,你以后接 Agent、接自动化、接多人协作流,也还是这套。
FAQ
Q: GPT-5.5 的 prompt 一定要写很长吗?
A: 不一定。关键不是长,而是清楚。高频返工点写细,其他部分保持简洁,通常比整段堆规则更稳。
Q: 写代码、写文档、做分析,能用同一套 prompt 模板吗?
A: 不能直接混用。三类任务的风险点不同:代码看边界,文档看风格,分析看步骤和不确定项。
Q: few-shot 示例是不是越多越好?
A: 不是。示例太多会占上下文,还可能把模型带偏。只放 1-2 个最像目标结果的样本,通常够用了。
如果你想立刻验证这篇文章有没有用,别从“重写一套新模板”开始。就挑一个你最近返工最多的 prompt,把它改成三段:目标、边界、验收,然后再跑一次。
跑完你可以问自己一个问题:这次返工,如果还有,卡在“目标不清”“边界没写”“验收没定”里的哪一层?你下一次会先补哪一句?