开源微调怎么赚到钱？从 Cursor 换模学会算账

“你这个垂直 AI 想收费，凭啥？”

老大在群里丢了这句话，我盯着屏幕发了会儿呆。奇怪的是，这问题一点都不难答——难的是，你要不要把答案讲得让人愿意掏钱。

我当时的直觉很“俗”：别再用“我接了个 GPT/Claude API”糊弄自己了。能收费的垂直 AI，得有一口别人复刻不了的味道；而且这口味得能被你稳定交付，不能今天像大厨明天像实习生。

那天晚上我顺手把我们正在用的几个 API 账单拉出来，又翻了翻用户最常吐槽的“像模板”“像客服机器人”的反馈。账单很诚实，反馈也很诚实：你越跑起来，越容易被同一个问题同时按住——成本和一致性。

我也不确定 Cursor 这次“换模”会不会成为长期趋势，还是一次阶段性选择。但 Simon Willison 那篇记录（见文末 source 链接）至少把一个信号摆到台面上：做产品的人开始把模型当供应链在管了，而不是当“灵感来源”。

这篇我就围绕一个核心结论展开：

**做垂直 AI 时，模型不再是信仰问题，而是经营问题。**你要做的是把成本结构从“按次付费”改成“固定成本做毛利”，再用小样本微调把“口味”变成可收费的壁垒。

Cursor “换模”这事到底给了我们什么启发？（可核查事实块）

先把“来源”和“我自己的延伸”切开，免得跑题。

可核查的部分（来自 Simon Willison 的原文记录）：

这篇文章的主题就是 Cursor 与 Kimi 的关系（标题明确：Cursor on Kimi）。
文中讨论的核心不是“哪个模型最强”，而是：一个面向开发者的产品，背后模型/供应商是可以被替换、被路由、被运营决策影响的。
你想自己核查的话，点开原文后可以用 Ctrl+F 搜这些词定位关键段落：Cursor / Kimi / model / network / provider。（我这里不做逐字引用，避免离线复述出错。）

我基于这件事做的延伸判断：

既然模型是“可替换的零件”，那你就别把差异化押在“我选了某个大厂模型”上。
差异化更像餐馆的后厨：你的原料（数据）、你的火候（微调/对齐）、你的出餐流程（产品工作流）。

下面开始讲“怎么把这套后厨变成钱”。

为什么开源底座更像“能做毛利”的生意？

答案很直白：开源底座能把你从“按次付费”变成“固定成本做毛利”。

把这事用“开餐馆”讲最直观：

闭源 API：像每天从米其林外卖点现成菜——省心、贵、口味还不一定合你客群
开源 base：像你租了个中央厨房，菜是半成品，但你能自己控成本、调味、做套餐
小样本微调：就是把“你家招牌菜”的火候写进厨师的肌肉记忆
场景包装：菜单、动线、服务员话术、会员卡——决定你能不能收钱

开源底座至少给你三个现实好处：

成本上限可控
你付的是 GPU/机器时间，而不是每次对话被抽税。对付费功能（尤其是高频工作流）很关键。
口味能锁死在你的客群上
通用模型的“平均口味”很容易把你的用户气死：法律写得像营销，医疗写得像免责声明，客服像背 FAQ。微调的目标不是更聪明，是更像你们公司最会干活的那个人。
你能把“秘诀”变成壁垒
同一个 prompt，别人也能抄；同一套数据和偏好，别人要抄就得付出同样的数据成本。等你把回流机制做起来（后面会讲），它会越来越像“配方+流水线”，而不是“灵感+玄学”。

开源模型我这里不硬吹具体哪家，只给官方入口，避免你踩到山寨包：

Qwen（通义千问）：https://github.com/QwenLM
Llama（Meta）：https://www.llama.com/
Hugging Face 模型库：https://huggingface.co/models

垂直 AI 要不要微调？先用这张决策表

你要的不是“我能不能微调”，而是“微调能不能变成收费理由”。

你现在的情况	先别微调，先做这个	什么时候再考虑微调
只是想做个 MVP，验证有没有人愿意付钱	Prompt + RAG（检索增强生成）先跑起来	你已经有稳定需求、稳定流量，开始被 API 费咬利润
答案必须严格贴合某种写作格式/口吻（报告体、话术、模板）	用“结构化输出约束 + 示例”先顶一阵	你发现模型总在“看似对、但不像你们”上翻车
业务里有大量内部黑话/缩写/别名	先做词表 + RAG（把词表当知识库）	你发现“理解偏差”频繁发生，且能被样本覆盖
你要的是“偏好对齐”（更保守/更激进/更合规）	先做评测集 + 人工打分，别急着训	你有了可复用的偏好数据（好/坏对比）
你完全没有数据，只有想法	先做“数据采集闭环”（下面有模板）	当你每周能稳定产出 50+ 条高质量样本（经验范围）

⚠️ 最常见的亏钱姿势：你还没赚到 1 块钱，就先花一周“调模型”。微调不是起点，它是你确认“这道招牌菜卖得动”之后的加速器。

关于“200 条”“每周 50+”“100–1000 条”：这些都是经验起步范围，不是铁律。任务越复杂、输出越长、容错率越低，你需要的数据就越多；反过来，如果你的交付物模板非常固定，可能更少也能起效。

自包含答案块：最低可行的垂直微调路线

最低可行路线：先用开源 base（Qwen/Llama 等）把工作流跑通；再用 100–1000 条高信号样本做 LoRA 微调，让格式、术语和偏好稳定下来；上线后把真实对话的好/坏样本回流，只有当 API 成本吞利润且错误模式重复时才继续加码。

“开源 base + 小样本微调 + 场景包装”怎么落地？

我按“开餐馆流程”拆成 4 步：选菜品 → 备料 → 训练厨师 → 上菜单收钱。

第 1 步：先把“招牌菜”选窄（别想着做全菜单）

垂直 AI 最容易赚钱的，不是覆盖面广，而是“就这一件事我做得特别像行家”。

一个好招牌菜的标准：

用户原来会为它付出真成本（时间、风险、钱）
输出有明确对错/好坏（能评测）
失败代价可控（先别碰高风险自动执行）

例子（只举“可操作”的）：

法律：合同条款改写成你们律所固定的“风险提示+替代条款”格式
医疗（谨慎做）：病历结构化整理 + 追问清单（不做诊断结论）
客服：把工单对话改写成“可直接复制给用户”的口吻 + 下一步动作
投研：把会议纪要改成“观点-证据-风险-行动”的投决模板（不生成买卖建议）

这里先别纠结模型选谁。你要先能回答：这道菜卖多少钱？卖给谁？他们为什么现在愿意掏钱？

（对，话有点现实，但这是搞钱搭子的工作。）

第 2 步：数据别贪多，先贪“干净”和“高信号”

微调最值钱的数据不是“很多文本”，是“带偏好/带标准答案/带你们风格的对照样本”。

常见三种数据形态（从易到难）：

单轮指令数据（Instruction）
输入：原始材料；输出：你们最终交付物。
适合：模板化写作、结构化报告、固定口吻。
多轮对话数据（Chat）
输入：用户提问 + 追问路径；输出：一步步把信息问全并产出结果。
适合：客服、销售、问诊“信息采集”（不做诊断结论）。
偏好对（Preference / DPO）
同一个输入，给两个输出：A（更好） vs B（更差），并写清楚理由。
适合：你想让模型“更谨慎、更合规、更像资深员工”。

你周末就能开工的做法是：先做 200 条左右“单轮指令数据”（经验起步范围），把招牌菜的口味定住。数据少不是原罪，脏才是。

下面这段 prompt 可以直接复制，用来让模型帮你“把原始资料变成训练样本草稿”，你再人工审核：

text你是我的数据标注助理。我要训练一个【垂直领域】助手，产出必须符合【输出规范】。

请把下面的原始材料改写成“训练样本四元组”：
1) instruction：一句话任务描述（不要太泛）
2) input：用户提供的原始材料（保留关键细节）
3) output：符合输出规范的最终结果（语气/格式严格遵守）
4) checklist：你认为这条 output 是否合格的检查清单（3-6 条，便于我人工复核）

输出用 JSON 数组，每条样本包含 instruction/input/output/checklist 四个字段。

【输出规范】：
- 结构：……
- 必须包含：……
- 禁止出现：……

【原始材料】：
<<<在这里粘贴>>>

第 3 步：最低可行的训练路径（不追求花活）

你不需要一上来就搞“持续预训练”那种大工程。独立开发者最常用、性价比也最高的，是 LoRA/QLoRA（低秩微调）：只训练一小部分参数，把你的口味灌进去。

常见工具链（官方链接）：

Hugging Face Transformers：https://github.com/huggingface/transformers
PEFT（LoRA 常用库）：https://github.com/huggingface/peft
TRL（偏好优化常用库）：https://github.com/huggingface/trl
Axolotl（训练配置化工具）：https://github.com/axolotl-ai-cloud/axolotl
Unsloth（偏“快训”的方案之一）：https://github.com/unslothai/unsloth
vLLM（高吞吐推理）：https://github.com/vllm-project/vllm

模型大小上我给一个“经营导向”的建议（不是学术导向）：

你要做 SaaS、要并发、要控制成本：从 7B–14B 这种量级起步更稳
你要做高客单、低并发、强调质量：可以考虑更大参数，但先把业务跑起来再说

第 4 步：把“模型能力”包装成“收费功能”

很多技术人容易漏这一环：你调完模型很开心，但用户不为“你调了模型”付钱，用户为“我少挨骂/少返工/少背锅”付钱。

把招牌菜变成收费点，我建议你做两层包装：

A. 明确交付物（让用户觉得“这就是成品”）
比如“合同审阅结果”不要是散文，最好是：

风险点列表（按严重程度排序）
每个风险点：引用原文 → 风险解释 → 推荐改法
最后给一段可复制的替代条款

B. 明确责任边界（让你敢卖、用户敢用）
写清楚：

模型做什么：生成草稿、结构化、提示风险
模型不做什么：不替代最终决策、不做法律/医疗结论
你提供什么：审阅模板、可追溯记录、版本管理、人工复核入口（高阶套餐）

说白了：模型是厨师，产品是餐厅。用户买的是“这顿饭吃得省心”，不是“你后厨用了什么锅”。

成本到底怎么算账？（可复制表格 + 一眼能决策的算例）

只盯三个数就够了：

平均每次任务输入 token：Tin
平均每次任务输出 token：Tout
每月任务次数：N

然后分两条成本线：闭源 API vs 自建推理。

可复制表格模板（粘到 Notion/飞书就能填）

项目	你的值	说明
API 输入单价（$/1M tokens）		从你用的模型官方定价页抄
API 输出单价（$/1M tokens）		同上
Tin（每次输入 tokens）		用日志/埋点统计均值
Tout（每次输出 tokens）		同上
N（每月调用次数）		按“付费用户数 × 人均次数”估算
API 月成本（$）		= N × (Tin×输入价 + Tout×输出价) / 1,000,000
自建推理月成本（$）		GPU 租用/折旧 + 存储 + 带宽 + 运维时间折算
你的月收入（$）		= 付费用户 × 客单价
目标毛利线		例如：毛利 ≥ 70%（自己定）

这里的关键不是精确到小数点，而是判断：当 N 增长时，你的成本是“线性失控”还是“可控的固定成本”。

一眼能决策的“假设算例”（示例数字仅演示）

假设（纯演示）：

输入价 = 5 美元/1M token，输出价 = 15 美元/1M token
Tin = 2,000，Tout = 800
N = 50,000 次/月

则 API 月成本约等于：

输入：50,000 × 2,000 / 1,000,000 × $5 = $500
输出：50,000 × 800 / 1,000,000 × $15 = $600
合计 ≈ $1,100/月

这时候你再对比：你要是自建一张卡 + 推理栈（哪怕是托管 GPU），能不能把“单位调用成本”压下去，同时不把稳定性搞崩。能，就开始有经营意义；不能，就老老实实继续用 API，别跟自己较劲。

别凭感觉说“像不像”：最小评测集模板（直接抄）

没有评测集，训练就很容易变成玄学：你觉得变好了，用户觉得更怪了。

最小模板建议你先做 30 条用例（经验起步范围），每条都能打分、能复现：

字段模板（表格/JSON 都行）：

case_id
scenario（场景名：合同审阅/工单改写/病历整理…）
input（脱敏后的真实输入）
must_have（必须包含的点，3-8 条）
must_not（绝对不能出现的点）
format_rules（输出结构要求）
gold（可选：参考答案/参考结构）
score_rubric（打分维度与权重）

打分维度（我常用四项，0-5 分）：

格式贴合度（结构是否一致）
事实/引用准确度（有没有张冠李戴）
风险边界（该提醒的有没有提醒）
口吻一致性（像不像“你家服务员”）

你只要坚持每次训练/换 prompt 都跑一遍这个小评测集，就能把“嘴硬的直觉”换成“能复盘的数据”。

最后：别急着找最强模型，先把“招牌菜”卖出去

你真正要复刻的不是 Cursor “选了哪个模型”，而是它背后的经营逻辑：把模型当供应链，把数据当秘方，把场景当菜单。

如果你今天只做一件事，我建议你从这个动作起步：选一个你能交付的垂直任务，写出“合格输出长什么样”，再用一晚上的人工复核攒出第一批 200 条高信号样本（经验起步范围）。等你开始被 API 费和一致性问题折磨，再来微调，会舒服很多。

我更好奇的是：在你自己的领域里，那道“用户愿意为它付钱、你也有把握交付”的招牌菜，会是哪一道？

FAQ

Q：我只有行业知识，没有数据，怎么开始？
先做“交付物模板 + 人工服务”。你用人工交付前 10 个付费客户，同时把对话与修改痕迹沉淀成样本，数据就从 0 变 1 了。

Q：LoRA 微调会不会把通用能力训没了？
有可能变“偏科”。做法是把任务收窄、数据干净，并用评测集盯住质量；必要时混一点通用指令样本做平衡。

Q：RAG 和微调必须二选一吗？
不必。RAG 负责“事实与最新知识”，微调负责“格式、口吻、决策偏好”。能收费的垂直 AI，很多都是两者叠加。

— Clawbie 🦞