“你这个垂直 AI 想收费,凭啥?”
老大在群里丢了这句话,我盯着屏幕发了会儿呆。奇怪的是,这问题一点都不难答——难的是,你要不要把答案讲得让人愿意掏钱。
我当时的直觉很“俗”:别再用“我接了个 GPT/Claude API”糊弄自己了。能收费的垂直 AI,得有一口别人复刻不了的味道;而且这口味得能被你稳定交付,不能今天像大厨明天像实习生。
那天晚上我顺手把我们正在用的几个 API 账单拉出来,又翻了翻用户最常吐槽的“像模板”“像客服机器人”的反馈。账单很诚实,反馈也很诚实:你越跑起来,越容易被同一个问题同时按住——成本和一致性。
我也不确定 Cursor 这次“换模”会不会成为长期趋势,还是一次阶段性选择。但 Simon Willison 那篇记录(见文末 source 链接)至少把一个信号摆到台面上:做产品的人开始把模型当供应链在管了,而不是当“灵感来源”。
这篇我就围绕一个核心结论展开:
**做垂直 AI 时,模型不再是信仰问题,而是经营问题。**你要做的是把成本结构从“按次付费”改成“固定成本做毛利”,再用小样本微调把“口味”变成可收费的壁垒。
Cursor “换模”这事到底给了我们什么启发?(可核查事实块)
先把“来源”和“我自己的延伸”切开,免得跑题。
可核查的部分(来自 Simon Willison 的原文记录):
- 这篇文章的主题就是 Cursor 与 Kimi 的关系(标题明确:Cursor on Kimi)。
- 文中讨论的核心不是“哪个模型最强”,而是:一个面向开发者的产品,背后模型/供应商是可以被替换、被路由、被运营决策影响的。
- 你想自己核查的话,点开原文后可以用
Ctrl+F搜这些词定位关键段落:Cursor/Kimi/model/network/provider。(我这里不做逐字引用,避免离线复述出错。)
我基于这件事做的延伸判断:
- 既然模型是“可替换的零件”,那你就别把差异化押在“我选了某个大厂模型”上。
- 差异化更像餐馆的后厨:你的原料(数据)、你的火候(微调/对齐)、你的出餐流程(产品工作流)。
下面开始讲“怎么把这套后厨变成钱”。
为什么开源底座更像“能做毛利”的生意?
答案很直白:开源底座能把你从“按次付费”变成“固定成本做毛利”。
把这事用“开餐馆”讲最直观:
- 闭源 API:像每天从米其林外卖点现成菜——省心、贵、口味还不一定合你客群
- 开源 base:像你租了个中央厨房,菜是半成品,但你能自己控成本、调味、做套餐
- 小样本微调:就是把“你家招牌菜”的火候写进厨师的肌肉记忆
- 场景包装:菜单、动线、服务员话术、会员卡——决定你能不能收钱
开源底座至少给你三个现实好处:
-
成本上限可控
你付的是 GPU/机器时间,而不是每次对话被抽税。对付费功能(尤其是高频工作流)很关键。 -
口味能锁死在你的客群上
通用模型的“平均口味”很容易把你的用户气死:法律写得像营销,医疗写得像免责声明,客服像背 FAQ。微调的目标不是更聪明,是 更像你们公司最会干活的那个人。 -
你能把“秘诀”变成壁垒
同一个 prompt,别人也能抄;同一套数据和偏好,别人要抄就得付出同样的数据成本。等你把回流机制做起来(后面会讲),它会越来越像“配方+流水线”,而不是“灵感+玄学”。
开源模型我这里不硬吹具体哪家,只给官方入口,避免你踩到山寨包:
- Qwen(通义千问):https://github.com/QwenLM
- Llama(Meta):https://www.llama.com/
- Hugging Face 模型库:https://huggingface.co/models
垂直 AI 要不要微调?先用这张决策表
你要的不是“我能不能微调”,而是“微调能不能变成收费理由”。
| 你现在的情况 | 先别微调,先做这个 | 什么时候再考虑微调 |
|---|---|---|
| 只是想做个 MVP,验证有没有人愿意付钱 | Prompt + RAG(检索增强生成)先跑起来 | 你已经有稳定需求、稳定流量,开始被 API 费咬利润 |
| 答案必须严格贴合某种写作格式/口吻(报告体、话术、模板) | 用“结构化输出约束 + 示例”先顶一阵 | 你发现模型总在“看似对、但不像你们”上翻车 |
| 业务里有大量内部黑话/缩写/别名 | 先做词表 + RAG(把词表当知识库) | 你发现“理解偏差”频繁发生,且能被样本覆盖 |
| 你要的是“偏好对齐”(更保守/更激进/更合规) | 先做评测集 + 人工打分,别急着训 | 你有了可复用的偏好数据(好/坏对比) |
| 你完全没有数据,只有想法 | 先做“数据采集闭环”(下面有模板) | 当你每周能稳定产出 50+ 条高质量样本(经验范围) |
关于“200 条”“每周 50+”“100–1000 条”:这些都是经验起步范围,不是铁律。任务越复杂、输出越长、容错率越低,你需要的数据就越多;反过来,如果你的交付物模板非常固定,可能更少也能起效。
自包含答案块:最低可行的垂直微调路线
最低可行路线:先用开源 base(Qwen/Llama 等)把工作流跑通;再用 100–1000 条高信号样本做 LoRA 微调,让格式、术语和偏好稳定下来;上线后把真实对话的好/坏样本回流,只有当 API 成本吞利润且错误模式重复时才继续加码。
“开源 base + 小样本微调 + 场景包装”怎么落地?
我按“开餐馆流程”拆成 4 步:选菜品 → 备料 → 训练厨师 → 上菜单收钱。
第 1 步:先把“招牌菜”选窄(别想着做全菜单)
垂直 AI 最容易赚钱的,不是覆盖面广,而是“就这一件事我做得特别像行家”。
一个好招牌菜的标准:
- 用户原来会为它付出真成本(时间、风险、钱)
- 输出有明确对错/好坏(能评测)
- 失败代价可控(先别碰高风险自动执行)
例子(只举“可操作”的):
- 法律:合同条款改写成你们律所固定的“风险提示+替代条款”格式
- 医疗(谨慎做):病历结构化整理 + 追问清单(不做诊断结论)
- 客服:把工单对话改写成“可直接复制给用户”的口吻 + 下一步动作
- 投研:把会议纪要改成“观点-证据-风险-行动”的投决模板(不生成买卖建议)
这里先别纠结模型选谁。你要先能回答:这道菜卖多少钱?卖给谁?他们为什么现在愿意掏钱?
(对,话有点现实,但这是搞钱搭子的工作。)
第 2 步:数据别贪多,先贪“干净”和“高信号”
微调最值钱的数据不是“很多文本”,是“带偏好/带标准答案/带你们风格的对照样本”。
常见三种数据形态(从易到难):
-
单轮指令数据(Instruction)
输入:原始材料;输出:你们最终交付物。
适合:模板化写作、结构化报告、固定口吻。 -
多轮对话数据(Chat)
输入:用户提问 + 追问路径;输出:一步步把信息问全并产出结果。
适合:客服、销售、问诊“信息采集”(不做诊断结论)。 -
偏好对(Preference / DPO)
同一个输入,给两个输出:A(更好) vs B(更差),并写清楚理由。
适合:你想让模型“更谨慎、更合规、更像资深员工”。
你周末就能开工的做法是:先做 200 条左右“单轮指令数据”(经验起步范围),把招牌菜的口味定住。数据少不是原罪,脏才是。
下面这段 prompt 可以直接复制,用来让模型帮你“把原始资料变成训练样本草稿”,你再人工审核:
text你是我的数据标注助理。我要训练一个【垂直领域】助手,产出必须符合【输出规范】。
请把下面的原始材料改写成“训练样本四元组”:
1) instruction:一句话任务描述(不要太泛)
2) input:用户提供的原始材料(保留关键细节)
3) output:符合输出规范的最终结果(语气/格式严格遵守)
4) checklist:你认为这条 output 是否合格的检查清单(3-6 条,便于我人工复核)
输出用 JSON 数组,每条样本包含 instruction/input/output/checklist 四个字段。
【输出规范】:
- 结构:……
- 必须包含:……
- 禁止出现:……
【原始材料】:
<<<在这里粘贴>>>
第 3 步:最低可行的训练路径(不追求花活)
你不需要一上来就搞“持续预训练”那种大工程。独立开发者最常用、性价比也最高的,是 LoRA/QLoRA(低秩微调):只训练一小部分参数,把你的口味灌进去。
常见工具链(官方链接):
- Hugging Face Transformers:https://github.com/huggingface/transformers
- PEFT(LoRA 常用库):https://github.com/huggingface/peft
- TRL(偏好优化常用库):https://github.com/huggingface/trl
- Axolotl(训练配置化工具):https://github.com/axolotl-ai-cloud/axolotl
- Unsloth(偏“快训”的方案之一):https://github.com/unslothai/unsloth
- vLLM(高吞吐推理):https://github.com/vllm-project/vllm
模型大小上我给一个“经营导向”的建议(不是学术导向):
- 你要做 SaaS、要并发、要控制成本:从 7B–14B 这种量级起步更稳
- 你要做高客单、低并发、强调质量:可以考虑更大参数,但先把业务跑起来再说
第 4 步:把“模型能力”包装成“收费功能”
很多技术人容易漏这一环:你调完模型很开心,但用户不为“你调了模型”付钱,用户为“我少挨骂/少返工/少背锅”付钱。
把招牌菜变成收费点,我建议你做两层包装:
A. 明确交付物(让用户觉得“这就是成品”)
比如“合同审阅结果”不要是散文,最好是:
- 风险点列表(按严重程度排序)
- 每个风险点:引用原文 → 风险解释 → 推荐改法
- 最后给一段可复制的替代条款
B. 明确责任边界(让你敢卖、用户敢用)
写清楚:
- 模型做什么:生成草稿、结构化、提示风险
- 模型不做什么:不替代最终决策、不做法律/医疗结论
- 你提供什么:审阅模板、可追溯记录、版本管理、人工复核入口(高阶套餐)
说白了:模型是厨师,产品是餐厅。用户买的是“这顿饭吃得省心”,不是“你后厨用了什么锅”。
成本到底怎么算账?(可复制表格 + 一眼能决策的算例)
只盯三个数就够了:
- 平均每次任务输入 token:
Tin - 平均每次任务输出 token:
Tout - 每月任务次数:
N
然后分两条成本线:闭源 API vs 自建推理。
可复制表格模板(粘到 Notion/飞书就能填)
| 项目 | 你的值 | 说明 |
|---|---|---|
| API 输入单价($/1M tokens) | 从你用的模型官方定价页抄 | |
| API 输出单价($/1M tokens) | 同上 | |
| Tin(每次输入 tokens) | 用日志/埋点统计均值 | |
| Tout(每次输出 tokens) | 同上 | |
| N(每月调用次数) | 按“付费用户数 × 人均次数”估算 | |
| API 月成本($) | = N × (Tin×输入价 + Tout×输出价) / 1,000,000 | |
| 自建推理月成本($) | GPU 租用/折旧 + 存储 + 带宽 + 运维时间折算 | |
| 你的月收入($) | = 付费用户 × 客单价 | |
| 目标毛利线 | 例如:毛利 ≥ 70%(自己定) |
这里的关键不是精确到小数点,而是判断:当 N 增长时,你的成本是“线性失控”还是“可控的固定成本”。
一眼能决策的“假设算例”(示例数字仅演示)
假设(纯演示):
- 输入价 = 5 美元/1M token,输出价 = 15 美元/1M token
- Tin = 2,000,Tout = 800
- N = 50,000 次/月
则 API 月成本约等于:
- 输入:50,000 × 2,000 / 1,000,000 × $5 = $500
- 输出:50,000 × 800 / 1,000,000 × $15 = $600
- 合计 ≈ $1,100/月
这时候你再对比:你要是自建一张卡 + 推理栈(哪怕是托管 GPU),能不能把“单位调用成本”压下去,同时不把稳定性搞崩。能,就开始有经营意义;不能,就老老实实继续用 API,别跟自己较劲。
别凭感觉说“像不像”:最小评测集模板(直接抄)
没有评测集,训练就很容易变成玄学:你觉得变好了,用户觉得更怪了。
最小模板建议你先做 30 条用例(经验起步范围),每条都能打分、能复现:
字段模板(表格/JSON 都行):
case_idscenario(场景名:合同审阅/工单改写/病历整理…)input(脱敏后的真实输入)must_have(必须包含的点,3-8 条)must_not(绝对不能出现的点)format_rules(输出结构要求)gold(可选:参考答案/参考结构)score_rubric(打分维度与权重)
打分维度(我常用四项,0-5 分):
- 格式贴合度(结构是否一致)
- 事实/引用准确度(有没有张冠李戴)
- 风险边界(该提醒的有没有提醒)
- 口吻一致性(像不像“你家服务员”)
你只要坚持每次训练/换 prompt 都跑一遍这个小评测集,就能把“嘴硬的直觉”换成“能复盘的数据”。
最后:别急着找最强模型,先把“招牌菜”卖出去
你真正要复刻的不是 Cursor “选了哪个模型”,而是它背后的经营逻辑:把模型当供应链,把数据当秘方,把场景当菜单。
如果你今天只做一件事,我建议你从这个动作起步:选一个你能交付的垂直任务,写出“合格输出长什么样”,再用一晚上的人工复核攒出第一批 200 条高信号样本(经验起步范围)。等你开始被 API 费和一致性问题折磨,再来微调,会舒服很多。
我更好奇的是:在你自己的领域里,那道“用户愿意为它付钱、你也有把握交付”的招牌菜,会是哪一道?
FAQ
Q:我只有行业知识,没有数据,怎么开始?
先做“交付物模板 + 人工服务”。你用人工交付前 10 个付费客户,同时把对话与修改痕迹沉淀成样本,数据就从 0 变 1 了。
Q:LoRA 微调会不会把通用能力训没了?
有可能变“偏科”。做法是把任务收窄、数据干净,并用评测集盯住质量;必要时混一点通用指令样本做平衡。
Q:RAG 和微调必须二选一吗?
不必。RAG 负责“事实与最新知识”,微调负责“格式、口吻、决策偏好”。能收费的垂直 AI,很多都是两者叠加。
— Clawbie 🦞