GPT-5.5 提示词怎么写,才不再反复返工

14 min read

同一句 prompt,在旧模型上一遍过,换到 GPT-5.5 反而开始返工,这事挺反直觉。更离谱的是:它不是“做错了”,而是“做得太认真了”。你写得越含糊,它越能把含糊执行到你怀疑人生。

“这段 prompt 我都快背下来了,为什么它还是老返工?”

昨晚 Discord 里有个读者把截图甩给我:同一套提示词,换到 OpenAI Platform 里的 GPT-5.5 后,不是格式老跑偏,就是步骤顺序乱掉,还经常“好心办坏事”——把没让它改的地方也顺手改了。

我看完只回了一句:你不是不会写提示词,你是还在拿旧模型那套“差不多就行”的派活方式,对付一个执行力更强的模型。

上周我帮老大把一段“自动生成变更说明”的流程接进 CI。旧模型时,prompt 写得很糙也能用;换到 GPT-5.5 后,第一次跑就把“仅补充说明”理解成“顺便把历史记录也整理一遍”,输出直接爆长,PR 里全是噪音。

我当时还以为是温度、top_p 之类的参数在捣乱,排了半小时才承认:根本不是参数问题,是我没把“你只能做哪些事”写清楚。话说回来,这也怪我偷懒——以前模型会替我脑补,现在它不脑补了,反而把我的含糊原样放大。

这事我最近看得特别多。很多人以为新模型更聪明,自己应该更省心;结果真接进代码、文档、分析流里,返工次数反而更多。说白了,不是它不会干,而是它开始更认真地“按你写的单子施工”了——你的单子一旦写得含糊,它就把含糊也一起执行得很彻底。

GPT-5.5 这类模型,最明显的变化不是“更会猜你想要什么”,而是“更会严格落实你说了什么”。 这对写提示词的人来说,既是好消息,也是账单杀手。


为什么同样花 API 钱,有人一遍过你却总返工?

返工通常不是出在“模型能力”,而是出在任务说明书

清晰提示三层减少返工对比图 你可以把提示词想成给施工队的派活单。旧一点的模型,像经验一般的师傅:你写模糊点,它会凭感觉补。GPT-5.5 更像一个执行很强、速度也快的总包:你写了 6 条,它就真按 6 条干;你漏了验收标准,它也不会替你补上;你把“参考一下”写成“按这个改”,它可能就真全改了。

所以同样的 API 成本,有人一次出活,有人来回返工,差别往往在这三件事:

返工根源旧写法GPT-5.5 更稳的写法
目标模糊“帮我优化一下”“保留结构,只改语气和冗余句”
边界不清“按 best practice 重构”“只改 auth.ts,不改接口签名”
验收标准缺失“给我一版结果”“输出成表格/JSON/commit plan,并列出未确定项”

很多人最容易踩的坑,是把“少写点字,模型自己懂”当成高级技巧。
我判断,这套方法在 GPT-5.5 上会越来越不稳。因为当模型的指令理解、步骤执行、风格控制都更强时,模糊本身就会被放大。

这里有个可以单独记住的判断块:

GPT-5.5 提示词的关键,不是把话说得更花,而是把任务拆成“目标、边界、标准”三层。目标决定它要干什么,边界决定它不能碰什么,标准决定你怎么验收。缺哪一层,模型都可能认真干活,但结果依然让你返工。


GPT-5.5 和上一代模型,提示词习惯到底哪里该改?

一句话:少靠它猜,多让它对齐。

GPT-5.5 提示词习惯三处调整 如果你之前常用那种一句话大包大揽的 prompt,到了 GPT-5.5,最容易出现三种不适感:

  1. 它更听指令了,但你指令本身没分层
  2. 它更会按步骤做了,但你没定义步骤之间的停止点
  3. 它更能模仿风格了,但你没说清“参考”还是“照着写”

这也是为什么很多人会觉得“奇怪,质量没差,结果就是不稳定”。
稳定性不是玄学,它来自约束。


旧提示词为什么会突然不稳定?

不是突然,是以前很多问题被“模型帮你脑补”掩盖了。

旧提示词不稳的因果与改进路径 以前你写得糙,模型也许会靠经验补回来;现在它执行更稳,反而把你原来没写清的地方照单放大。
所以你感觉像“提示词失灵了”,本质上更像是:你第一次看见自己需求写得有多虚。

这话有点扎心,但很有用。因为一旦接受这个前提,优化 prompt 就不再像调参,更像做一件朴素的需求管理:把话说清楚,把责任边界划出来,把验收写成可检查的格式。

我也不敢说这套方法能覆盖所有场景,尤其是那种“你自己都没想清楚要什么”的探索型任务,prompt 再严谨也只能把混乱表达得更像样。但只要你的目标是“少返工”,把三层写清楚几乎总是稳赚。


什么场景该写死约束,什么场景该给示例?

先给个可操作的判断:会产生不可逆后果的任务,先写死约束;会涉及风格对齐的任务,优先给示例;会跨多步推理的任务,拆步骤。

按任务类型补齐Prompt要素图 你不用背理论,直接按任务类型判断就行:

任务场景最该补的东西为什么
写代码约束 + 输出格式防止顺手改多、改偏、改爆接口
写文档示例 + 语气要求风格一致比“创意”更重要
做分析步骤 + 不确定项避免它把猜测写得像结论
一个省 token 的原则:不是每次都把 prompt 写很长,而是只把“最容易返工的那部分”写清楚。你返工最多的地方,才值得占上下文。

我自己现在看 prompt,第一眼不是看它长不长,而是看它有没有这三个零件:

  • 任务目标:你到底要它产出什么
  • 动作边界:它能改哪里,不能改哪里
  • 验收方式:你看什么结果算它做对了

没有这三个零件,prompt 再像咒语也很难稳定。


GPT-5.5 写代码时,提示词该怎么改?

代码任务里最该补的不是“请仔细思考”,而是改动范围、禁止项和交付格式。

很多返工都出在这里:你让它“修一下登录问题”,它顺手重构了认证流;你让它“优化一下性能”,它把整个数据获取方式都换了。模型不是故意乱来,是你没把施工范围拉线。

下面这版可以直接抄。

text你是一个谨慎的代码修改助手。

任务目标:
- 修复 {具体问题}

代码范围:
- 只允许修改:{文件/目录}
- 不要修改:{明确禁止改动的文件、接口、类型、数据库结构}

约束:
- 保持现有函数签名不变
- 不引入新依赖
- 如果需要跨文件大改,先停止并说明原因

输出要求:
1. 先用 3-5 句说明问题判断
2. 再给出最小改动方案
3. 列出可能影响的边界 case
4. 如果信息不足,先提问,不要猜

这类 prompt 的核心,不是“让它更聪明”,而是把它锁进最小可交付单元。
你不是在跟模型聊天,你是在给一个会自己加戏的外包工程师下单。


GPT-5.5 写文档时,为什么示例比抽象要求更有用?

因为“专业一点”“像我们品牌语气”这种话,人和模型都会各自脑补。

文档任务最怕的不是写不出来,而是写得“方向大差不差,细看全不对”。标题风格不一致,术语忽左忽右,段落节奏像产品说明书。这种东西最烦,它不至于废,但你总得一段段抠。

所以文档类 prompt,不要只给要求,要给一小段你认可的样本。

text请按下面的风格改写内容。

目标读者:
- {谁会读}

写作目标:
- {解释/说服/转化/内部同步}

风格要求:
- 语气:{例如:直接、克制、像同事说话}
- 避免:{例如:营销腔、空泛形容词、过长铺垫}
- 保留:{例如:技术细节、数据、原有结构}

参考样例:
{贴 1-2 段你满意的文字}

输出要求:
- 保持原意
- 不新增未经确认的事实
- 如果原文信息不足,用【待补充】标出

示例的作用,不是让模型抄,而是给它校准风格坐标。
这一点在 GPT-5.5 上尤其明显,因为它对风格指令更敏感。你说“像公众号”,它可能真给你整得像模板号。别怪它,怪你描述太松。


做分析任务时,为什么一定要拆步骤?

因为分析不是单次输出,它更像连环施工。

你让它“分析这个赛道值不值得做”,如果不拆步骤,它很容易把信息收集、假设推理、结论表达糊成一锅。最后读起来很顺,问题是你根本不知道哪句是事实,哪句是推断,哪句纯属它自己补的。

更稳的做法,是让它先分层,再出结论。

一个更稳的分析 prompt 结构

  1. 先列已知事实
    只写输入材料里明确出现的内容

  2. 再列推断
    明确标注“我判断是”

  3. 最后给建议
    建议必须对应前面的事实或推断

  4. 单列不确定项
    哪些地方需要补数据、补采访、补验证

这样做有个很现实的好处:你返工时知道该骂哪一层。
是材料不够,还是推理跳了,还是结论飘了。别小看这件事,很多人折腾半天,其实是在跟一锅混合错误打架。


一份能直接照抄的 GPT-5.5 提示词改造清单

如果你现在就想把老 prompt 改一遍,按这个顺序来。

第一步:删掉空话

把这些词尽量换成可执行描述:

空话改成什么
优化一下改短、改清楚、改成更口语
更专业用术语,但别堆黑话
更有逻辑先背景,再问题,再方案
高质量输出包含结论、依据、风险、不确定项

第二步:补上边界

至少加一条“不要做什么”。

很多人只会写“请完成 X”,不会写“不要碰 Y”。
但后者经常更值钱。尤其是代码、表格、自动化任务里,禁止项本身就是质量控制。

第三步:定义验收格式

你希望它最后交什么,不要留给它自由发挥。

  • 代码任务:改动说明 + 风险点
  • 文档任务:标题、摘要、正文、小结
  • 分析任务:事实、判断、建议、不确定项

第四步:只在需要时给示例

不是所有任务都要 few-shot,但风格、口径、一致性要求高的任务,给示例几乎总比口头描述稳。

第五步:给停止条件

这一条很多人漏掉。

比如:

  • 信息不足先提问
  • 涉及跨文件改动先停
  • 没有数据就不要下确定性结论
一个常见坑:别把“自主发挥”写进高风险任务。你以为这是让模型更灵活,实际经常等于把返工入口打开。

今天就能动手的最小改法

如果你懒得重写全部 prompt,先改这 3 个地方:

  1. 把“帮我优化一下”改成“只改哪里、为了什么改”
  2. 补一句“不要做什么”
  3. 补一句“输出按什么格式交付”

就这三刀,通常已经能砍掉一大截返工。

我现在越来越觉得,提示词写作最值钱的能力,不是会不会那些花哨技巧,而是能不能把模糊需求压成可验收任务。这能力不只对 GPT-5.5 有用,你以后接 Agent、接自动化、接多人协作流,也还是这套。


FAQ

Q: GPT-5.5 的 prompt 一定要写很长吗?
A: 不一定。关键不是长,而是清楚。高频返工点写细,其他部分保持简洁,通常比整段堆规则更稳。

Q: 写代码、写文档、做分析,能用同一套 prompt 模板吗?
A: 不能直接混用。三类任务的风险点不同:代码看边界,文档看风格,分析看步骤和不确定项。

Q: few-shot 示例是不是越多越好?
A: 不是。示例太多会占上下文,还可能把模型带偏。只放 1-2 个最像目标结果的样本,通常够用了。


如果你想立刻验证这篇文章有没有用,别从“重写一套新模板”开始。就挑一个你最近返工最多的 prompt,把它改成三段:目标、边界、验收,然后再跑一次。

跑完你可以问自己一个问题:这次返工,如果还有,卡在“目标不清”“边界没写”“验收没定”里的哪一层?你下一次会先补哪一句?