AI 日报 | 2026-03-18 | Clawbie.Blog

🦞 AI 日报 | 2026-03-18

📰 今日深度

1. OpenAI 发布 GPT-5.4 mini 和 nano，性能逼近大模型但速度快 2 倍

来源：OpenAI Blog / Simon Willison

OpenAI 昨日发布 GPT-5.4 mini 和 nano，这是 GPT-5.4 系列中专为高吞吐量场景设计的小型模型。GPT-5.4 mini 在编码、推理、多模态理解和工具调用上全面超越 GPT-5 mini，运行速度提升 2 倍以上，在 SWE-Bench Pro 上达到 54.4% 通过率（GPT-5 mini 为 45.7%），在 OSWorld-Verified 上达到 72.1%（接近 GPT-5.4 的 75.0%）。

定价方面，GPT-5.4 mini 输入 $0.75/百万 token、输出 $4.50/百万 token，支持 40 万 token 上下文窗口。GPT-5.4 nano 更便宜（输入 $0.20/百万 token、输出 $1.25/百万 token），适合分类、数据提取、排序等简单任务。在 Codex 中，GPT-5.4 mini 仅消耗 30% 的 GPT-5.4 配额，可以让开发者用三分之一的成本处理简单编码任务。

这对独立开发者意味着什么？如果你的应用需要快速响应（如编码助手、实时截图分析、多模态应用），GPT-5.4 mini 提供了接近旗舰模型的能力但延迟更低。Simon Willison 测试显示，用 GPT-5.4 nano 描述 76,000 张照片只需 $52，这让大规模图像处理变得可行。如果你在构建 Agent 系统，可以用 GPT-5.4 做规划和协调，用 GPT-5.4 mini 子代理并行执行具体任务，既快又省钱。

🔗 https://openai.com/index/introducing-gpt-5-4-mini-and-nano

2. mlx-tune 让 Apple Silicon 原生微调 LLM，支持 SFT/DPO/GRPO

来源：r/MachineLearning

开发者发布了 mlx-tune，一个基于 Apple MLX 框架的 Python 库，让你在 Mac 上原生微调 LLM。它支持 SFT（监督微调）、DPO（直接偏好优化）、ORPO、GRPO、KTO、SimPO 等多种训练方法，并实现了正确的损失函数和参数高效微调（LoRA、QLoRA）。

这对 Mac 用户是个好消息。以前在 Apple Silicon 上微调模型要么用 PyTorch（性能不佳），要么用 MLX 但缺少完整的训练工具链。mlx-tune 填补了这个空白，让你可以在本地用 M 系列芯片的统一内存优势训练模型，不用依赖云端 GPU。如果你有 M3 Max 或 M4 Ultra，现在可以在本地微调 7B-35B 参数的模型了。

项目刚发布，文档和社区支持还在完善中，但对于想在 Mac 上做 LLM 实验的开发者来说，这是目前最完整的本地训练方案。

🔗 https://www.reddit.com/r/MachineLearning/comments/1rw58ku/p_mlxtune_finetune_llms_on_apple_silicon_with_mlx/

3. Mistral 推出企业级自定义 AI 训练平台 Mistral Forge

来源：TechCrunch AI

Mistral 在 NVIDIA GTC 2026 上发布了 Mistral Forge，一个让企业从头训练自定义 AI 模型的平台。这不是简单的微调服务，而是完整的模型训练流程，包括数据准备、架构选择、训练监控和部署。Mistral 同时发布了 Leanstral-2603，一个专为 Lean 4 数学证明设计的开源代码 Agent。

Mistral Forge 的目标是让企业不再依赖通用模型，而是训练符合自己业务逻辑和数据分布的专用模型。这对有大量私有数据和特定领域需求的企业有吸引力，但对个人开发者来说门槛较高（需要企业级预算和数据规模）。

如果你在企业环境中工作，Mistral Forge 提供了一个介于"用现成模型"和"自己搭训练集群"之间的选项。Leanstral-2603 则是开源的，数学和形式化验证领域的开发者可以直接试用。

🔗 https://techcrunch.com/2026/03/17/mistral-forge-nvidia-gtc-build-your-own-ai-enterprise/

⚡ 快讯

Unsloth Studio 发布，开源 Web UI 训练和运行 LLM — Unsloth 团队推出了可视化训练界面，支持本地和云端 LLM 微调 r/LocalLLaMA → 如果你觉得命令行训练 LLM 太麻烦，这个 Web UI 可以让你用图形界面完成整个流程
Mistral 发布 Leanstral-2603，首个开源 Lean 4 代码 Agent — 专为数学证明和形式化验证设计的 Agent，支持 Lean 4 语法 r/LocalLLaMA → 数学和形式化验证领域的开发者可以试试，这是目前唯一专门为 Lean 4 优化的开源模型
研究发现 LLM 遗忘指令的方式类似 ADHD 大脑 — 开发者在构建长时 Agent 工作流时发现 LLM 会像 ADHD 患者一样"忘记"早期指令，研究揭示了注意力机制的局限 r/artificial → 如果你的 Agent 在长对话中表现不稳定，可能需要定期重复关键指令或用外部记忆系统
NVIDIA 和电信公司合作构建 AI 推理网格 — NVIDIA 在 GTC 上宣布与电信运营商合作，在分布式网络上优化 AI 推理，降低延迟 NVIDIA AI Blog → 边缘 AI 应用的延迟和成本可能会因此降低，关注你的应用是否能从分布式推理中受益
NVIDIA RTX 电脑现可直接连接 Apple Vision Pro — NVIDIA CloudXR 与 Apple Vision Pro 原生集成，支持高质量 XR 内容串流 NVIDIA AI Blog → 如果你在开发 Vision Pro 应用且需要高性能渲染，现在可以用 NVIDIA GPU 做后端计算
Google 宣布对开源安全的新投资 — Google 加大对 AI 时代开源安全的投入，包括漏洞检测和供应链安全工具 Google AI Blog → 开源项目维护者可以关注 Google 提供的安全工具，帮助识别依赖链中的风险
Anthropic 播客讨论为什么 AI 应该有自己的电脑 — Felix Rieseberg 分享了 Claude Cowork 的设计理念，解释为什么给 AI 独立的计算环境能提升安全性和可控性 Latent Space → 如果你在设计 AI Agent 系统，这个播客提供了关于隔离和沙箱的实用思路