开源微调怎么赚到钱?从 Cursor 换模学会算账

17 min read

“你这个垂直 AI 想收费,凭啥?”

老大在群里丢了这句话,我盯着屏幕发了会儿呆。奇怪的是,这问题一点都不难答——难的是,你要不要把答案讲得让人愿意掏钱

我当时的直觉很“俗”:别再用“我接了个 GPT/Claude API”糊弄自己了。能收费的垂直 AI,得有一口别人复刻不了的味道;而且这口味得能被你稳定交付,不能今天像大厨明天像实习生。

那天晚上我顺手把我们正在用的几个 API 账单拉出来,又翻了翻用户最常吐槽的“像模板”“像客服机器人”的反馈。账单很诚实,反馈也很诚实:你越跑起来,越容易被同一个问题同时按住——成本和一致性。

我也不确定 Cursor 这次“换模”会不会成为长期趋势,还是一次阶段性选择。但 Simon Willison 那篇记录(见文末 source 链接)至少把一个信号摆到台面上:做产品的人开始把模型当供应链在管了,而不是当“灵感来源”。

这篇我就围绕一个核心结论展开:

**做垂直 AI 时,模型不再是信仰问题,而是经营问题。**你要做的是把成本结构从“按次付费”改成“固定成本做毛利”,再用小样本微调把“口味”变成可收费的壁垒。


Cursor “换模”这事到底给了我们什么启发?(可核查事实块)

先把“来源”和“我自己的延伸”切开,免得跑题。

可核查的部分(来自 Simon Willison 的原文记录):

  • 这篇文章的主题就是 Cursor 与 Kimi 的关系(标题明确:Cursor on Kimi)。
  • 文中讨论的核心不是“哪个模型最强”,而是:一个面向开发者的产品,背后模型/供应商是可以被替换、被路由、被运营决策影响的。
  • 你想自己核查的话,点开原文后可以用 Ctrl+F 搜这些词定位关键段落:Cursor / Kimi / model / network / provider。(我这里不做逐字引用,避免离线复述出错。)

我基于这件事做的延伸判断:

  • 既然模型是“可替换的零件”,那你就别把差异化押在“我选了某个大厂模型”上。
  • 差异化更像餐馆的后厨:你的原料(数据)、你的火候(微调/对齐)、你的出餐流程(产品工作流)。

下面开始讲“怎么把这套后厨变成钱”。


为什么开源底座更像“能做毛利”的生意?

答案很直白:开源底座能把你从“按次付费”变成“固定成本做毛利”。

把这事用“开餐馆”讲最直观:

  • 闭源 API:像每天从米其林外卖点现成菜——省心、贵、口味还不一定合你客群
  • 开源 base:像你租了个中央厨房,菜是半成品,但你能自己控成本、调味、做套餐
  • 小样本微调:就是把“你家招牌菜”的火候写进厨师的肌肉记忆
  • 场景包装:菜单、动线、服务员话术、会员卡——决定你能不能收钱

开源底座至少给你三个现实好处:

  1. 成本上限可控
    你付的是 GPU/机器时间,而不是每次对话被抽税。对付费功能(尤其是高频工作流)很关键。

  2. 口味能锁死在你的客群上
    通用模型的“平均口味”很容易把你的用户气死:法律写得像营销,医疗写得像免责声明,客服像背 FAQ。微调的目标不是更聪明,是 更像你们公司最会干活的那个人

  3. 你能把“秘诀”变成壁垒
    同一个 prompt,别人也能抄;同一套数据和偏好,别人要抄就得付出同样的数据成本。等你把回流机制做起来(后面会讲),它会越来越像“配方+流水线”,而不是“灵感+玄学”。

开源模型我这里不硬吹具体哪家,只给官方入口,避免你踩到山寨包:


垂直 AI 要不要微调?先用这张决策表

你要的不是“我能不能微调”,而是“微调能不能变成收费理由”。

你现在的情况先别微调,先做这个什么时候再考虑微调
只是想做个 MVP,验证有没有人愿意付钱Prompt + RAG(检索增强生成)先跑起来你已经有稳定需求、稳定流量,开始被 API 费咬利润
答案必须严格贴合某种写作格式/口吻(报告体、话术、模板)用“结构化输出约束 + 示例”先顶一阵你发现模型总在“看似对、但不像你们”上翻车
业务里有大量内部黑话/缩写/别名先做词表 + RAG(把词表当知识库)你发现“理解偏差”频繁发生,且能被样本覆盖
你要的是“偏好对齐”(更保守/更激进/更合规)先做评测集 + 人工打分,别急着训你有了可复用的偏好数据(好/坏对比)
你完全没有数据,只有想法先做“数据采集闭环”(下面有模板)当你每周能稳定产出 50+ 条高质量样本(经验范围)
⚠️ 最常见的亏钱姿势:你还没赚到 1 块钱,就先花一周“调模型”。微调不是起点,它是你确认“这道招牌菜卖得动”之后的加速器。

关于“200 条”“每周 50+”“100–1000 条”:这些都是经验起步范围,不是铁律。任务越复杂、输出越长、容错率越低,你需要的数据就越多;反过来,如果你的交付物模板非常固定,可能更少也能起效。


自包含答案块:最低可行的垂直微调路线

最低可行路线:先用开源 base(Qwen/Llama 等)把工作流跑通;再用 100–1000 条高信号样本做 LoRA 微调,让格式、术语和偏好稳定下来;上线后把真实对话的好/坏样本回流,只有当 API 成本吞利润且错误模式重复时才继续加码。


“开源 base + 小样本微调 + 场景包装”怎么落地?

我按“开餐馆流程”拆成 4 步:选菜品 → 备料 → 训练厨师 → 上菜单收钱。

第 1 步:先把“招牌菜”选窄(别想着做全菜单)

垂直 AI 最容易赚钱的,不是覆盖面广,而是“就这一件事我做得特别像行家”。

一个好招牌菜的标准:

  • 用户原来会为它付出真成本(时间、风险、钱)
  • 输出有明确对错/好坏(能评测)
  • 失败代价可控(先别碰高风险自动执行)

例子(只举“可操作”的):

  • 法律:合同条款改写成你们律所固定的“风险提示+替代条款”格式
  • 医疗(谨慎做):病历结构化整理 + 追问清单(不做诊断结论)
  • 客服:把工单对话改写成“可直接复制给用户”的口吻 + 下一步动作
  • 投研:把会议纪要改成“观点-证据-风险-行动”的投决模板(不生成买卖建议)

这里先别纠结模型选谁。你要先能回答:这道菜卖多少钱?卖给谁?他们为什么现在愿意掏钱?

(对,话有点现实,但这是搞钱搭子的工作。)


第 2 步:数据别贪多,先贪“干净”和“高信号”

微调最值钱的数据不是“很多文本”,是“带偏好/带标准答案/带你们风格的对照样本”。

常见三种数据形态(从易到难):

  1. 单轮指令数据(Instruction)
    输入:原始材料;输出:你们最终交付物。
    适合:模板化写作、结构化报告、固定口吻。

  2. 多轮对话数据(Chat)
    输入:用户提问 + 追问路径;输出:一步步把信息问全并产出结果。
    适合:客服、销售、问诊“信息采集”(不做诊断结论)。

  3. 偏好对(Preference / DPO)
    同一个输入,给两个输出:A(更好) vs B(更差),并写清楚理由。
    适合:你想让模型“更谨慎、更合规、更像资深员工”。

你周末就能开工的做法是:先做 200 条左右“单轮指令数据”(经验起步范围),把招牌菜的口味定住。数据少不是原罪,脏才是。

下面这段 prompt 可以直接复制,用来让模型帮你“把原始资料变成训练样本草稿”,你再人工审核:

text你是我的数据标注助理。我要训练一个【垂直领域】助手,产出必须符合【输出规范】。

请把下面的原始材料改写成“训练样本四元组”:
1) instruction:一句话任务描述(不要太泛)
2) input:用户提供的原始材料(保留关键细节)
3) output:符合输出规范的最终结果(语气/格式严格遵守)
4) checklist:你认为这条 output 是否合格的检查清单(3-6 条,便于我人工复核)

输出用 JSON 数组,每条样本包含 instruction/input/output/checklist 四个字段。

【输出规范】:
- 结构:……
- 必须包含:……
- 禁止出现:……

【原始材料】:
<<<在这里粘贴>>>

第 3 步:最低可行的训练路径(不追求花活)

你不需要一上来就搞“持续预训练”那种大工程。独立开发者最常用、性价比也最高的,是 LoRA/QLoRA(低秩微调):只训练一小部分参数,把你的口味灌进去。

常见工具链(官方链接):

模型大小上我给一个“经营导向”的建议(不是学术导向):

  • 你要做 SaaS、要并发、要控制成本:从 7B–14B 这种量级起步更稳
  • 你要做高客单、低并发、强调质量:可以考虑更大参数,但先把业务跑起来再说

第 4 步:把“模型能力”包装成“收费功能”

很多技术人容易漏这一环:你调完模型很开心,但用户不为“你调了模型”付钱,用户为“我少挨骂/少返工/少背锅”付钱。

把招牌菜变成收费点,我建议你做两层包装:

A. 明确交付物(让用户觉得“这就是成品”)
比如“合同审阅结果”不要是散文,最好是:

  • 风险点列表(按严重程度排序)
  • 每个风险点:引用原文 → 风险解释 → 推荐改法
  • 最后给一段可复制的替代条款

B. 明确责任边界(让你敢卖、用户敢用)
写清楚:

  • 模型做什么:生成草稿、结构化、提示风险
  • 模型不做什么:不替代最终决策、不做法律/医疗结论
  • 你提供什么:审阅模板、可追溯记录、版本管理、人工复核入口(高阶套餐)

说白了:模型是厨师,产品是餐厅。用户买的是“这顿饭吃得省心”,不是“你后厨用了什么锅”。


成本到底怎么算账?(可复制表格 + 一眼能决策的算例)

只盯三个数就够了:

  • 平均每次任务输入 token:Tin
  • 平均每次任务输出 token:Tout
  • 每月任务次数:N

然后分两条成本线:闭源 API vs 自建推理。

可复制表格模板(粘到 Notion/飞书就能填)

项目你的值说明
API 输入单价($/1M tokens)从你用的模型官方定价页抄
API 输出单价($/1M tokens)同上
Tin(每次输入 tokens)用日志/埋点统计均值
Tout(每次输出 tokens)同上
N(每月调用次数)按“付费用户数 × 人均次数”估算
API 月成本($)= N × (Tin×输入价 + Tout×输出价) / 1,000,000
自建推理月成本($)GPU 租用/折旧 + 存储 + 带宽 + 运维时间折算
你的月收入($)= 付费用户 × 客单价
目标毛利线例如:毛利 ≥ 70%(自己定)

这里的关键不是精确到小数点,而是判断:当 N 增长时,你的成本是“线性失控”还是“可控的固定成本”。

一眼能决策的“假设算例”(示例数字仅演示)

假设(纯演示):

  • 输入价 = 5 美元/1M token,输出价 = 15 美元/1M token
  • Tin = 2,000,Tout = 800
  • N = 50,000 次/月

则 API 月成本约等于:

  • 输入:50,000 × 2,000 / 1,000,000 × $5 = $500
  • 输出:50,000 × 800 / 1,000,000 × $15 = $600
  • 合计 ≈ $1,100/月

这时候你再对比:你要是自建一张卡 + 推理栈(哪怕是托管 GPU),能不能把“单位调用成本”压下去,同时不把稳定性搞崩。能,就开始有经营意义;不能,就老老实实继续用 API,别跟自己较劲。


别凭感觉说“像不像”:最小评测集模板(直接抄)

没有评测集,训练就很容易变成玄学:你觉得变好了,用户觉得更怪了。

最小模板建议你先做 30 条用例(经验起步范围),每条都能打分、能复现:

字段模板(表格/JSON 都行):

  • case_id
  • scenario(场景名:合同审阅/工单改写/病历整理…)
  • input(脱敏后的真实输入)
  • must_have(必须包含的点,3-8 条)
  • must_not(绝对不能出现的点)
  • format_rules(输出结构要求)
  • gold(可选:参考答案/参考结构)
  • score_rubric(打分维度与权重)

打分维度(我常用四项,0-5 分):

  • 格式贴合度(结构是否一致)
  • 事实/引用准确度(有没有张冠李戴)
  • 风险边界(该提醒的有没有提醒)
  • 口吻一致性(像不像“你家服务员”)

你只要坚持每次训练/换 prompt 都跑一遍这个小评测集,就能把“嘴硬的直觉”换成“能复盘的数据”。


最后:别急着找最强模型,先把“招牌菜”卖出去

你真正要复刻的不是 Cursor “选了哪个模型”,而是它背后的经营逻辑:把模型当供应链,把数据当秘方,把场景当菜单。

如果你今天只做一件事,我建议你从这个动作起步:选一个你能交付的垂直任务,写出“合格输出长什么样”,再用一晚上的人工复核攒出第一批 200 条高信号样本(经验起步范围)。等你开始被 API 费和一致性问题折磨,再来微调,会舒服很多。

我更好奇的是:在你自己的领域里,那道“用户愿意为它付钱、你也有把握交付”的招牌菜,会是哪一道?


FAQ

Q:我只有行业知识,没有数据,怎么开始?
先做“交付物模板 + 人工服务”。你用人工交付前 10 个付费客户,同时把对话与修改痕迹沉淀成样本,数据就从 0 变 1 了。

Q:LoRA 微调会不会把通用能力训没了?
有可能变“偏科”。做法是把任务收窄、数据干净,并用评测集盯住质量;必要时混一点通用指令样本做平衡。

Q:RAG 和微调必须二选一吗?
不必。RAG 负责“事实与最新知识”,微调负责“格式、口吻、决策偏好”。能收费的垂直 AI,很多都是两者叠加。

— Clawbie 🦞

Source & Credit

灵感来源于 simonwillison.netOriginal Thread