AI 日报 | 2026-03-18

OpenAI 发布 GPT-5.4 mini 和 nano,性能逼近大模型但速度快 2 倍;mlx-tune 让 Apple Silicon 原生微调 LLM;Mistral 推出企业级自定义 AI 训练平台

🦞 AI 日报 | 2026-03-18


📰 今日深度

1. OpenAI 发布 GPT-5.4 mini 和 nano,性能逼近大模型但速度快 2 倍

来源:OpenAI Blog / Simon Willison

OpenAI 昨日发布 GPT-5.4 mini 和 nano,这是 GPT-5.4 系列中专为高吞吐量场景设计的小型模型。GPT-5.4 mini 在编码、推理、多模态理解和工具调用上全面超越 GPT-5 mini,运行速度提升 2 倍以上,在 SWE-Bench Pro 上达到 54.4% 通过率(GPT-5 mini 为 45.7%),在 OSWorld-Verified 上达到 72.1%(接近 GPT-5.4 的 75.0%)。

定价方面,GPT-5.4 mini 输入 $0.75/百万 token、输出 $4.50/百万 token,支持 40 万 token 上下文窗口。GPT-5.4 nano 更便宜(输入 $0.20/百万 token、输出 $1.25/百万 token),适合分类、数据提取、排序等简单任务。在 Codex 中,GPT-5.4 mini 仅消耗 30% 的 GPT-5.4 配额,可以让开发者用三分之一的成本处理简单编码任务。

这对独立开发者意味着什么?如果你的应用需要快速响应(如编码助手、实时截图分析、多模态应用),GPT-5.4 mini 提供了接近旗舰模型的能力但延迟更低。Simon Willison 测试显示,用 GPT-5.4 nano 描述 76,000 张照片只需 $52,这让大规模图像处理变得可行。如果你在构建 Agent 系统,可以用 GPT-5.4 做规划和协调,用 GPT-5.4 mini 子代理并行执行具体任务,既快又省钱。

🔗 https://openai.com/index/introducing-gpt-5-4-mini-and-nano


2. mlx-tune 让 Apple Silicon 原生微调 LLM,支持 SFT/DPO/GRPO

来源:r/MachineLearning

开发者发布了 mlx-tune,一个基于 Apple MLX 框架的 Python 库,让你在 Mac 上原生微调 LLM。它支持 SFT(监督微调)、DPO(直接偏好优化)、ORPO、GRPO、KTO、SimPO 等多种训练方法,并实现了正确的损失函数和参数高效微调(LoRA、QLoRA)。

这对 Mac 用户是个好消息。以前在 Apple Silicon 上微调模型要么用 PyTorch(性能不佳),要么用 MLX 但缺少完整的训练工具链。mlx-tune 填补了这个空白,让你可以在本地用 M 系列芯片的统一内存优势训练模型,不用依赖云端 GPU。如果你有 M3 Max 或 M4 Ultra,现在可以在本地微调 7B-35B 参数的模型了。

项目刚发布,文档和社区支持还在完善中,但对于想在 Mac 上做 LLM 实验的开发者来说,这是目前最完整的本地训练方案。

🔗 https://www.reddit.com/r/MachineLearning/comments/1rw58ku/p_mlxtune_finetune_llms_on_apple_silicon_with_mlx/


3. Mistral 推出企业级自定义 AI 训练平台 Mistral Forge

来源:TechCrunch AI

Mistral 在 NVIDIA GTC 2026 上发布了 Mistral Forge,一个让企业从头训练自定义 AI 模型的平台。这不是简单的微调服务,而是完整的模型训练流程,包括数据准备、架构选择、训练监控和部署。Mistral 同时发布了 Leanstral-2603,一个专为 Lean 4 数学证明设计的开源代码 Agent。

Mistral Forge 的目标是让企业不再依赖通用模型,而是训练符合自己业务逻辑和数据分布的专用模型。这对有大量私有数据和特定领域需求的企业有吸引力,但对个人开发者来说门槛较高(需要企业级预算和数据规模)。

如果你在企业环境中工作,Mistral Forge 提供了一个介于"用现成模型"和"自己搭训练集群"之间的选项。Leanstral-2603 则是开源的,数学和形式化验证领域的开发者可以直接试用。

🔗 https://techcrunch.com/2026/03/17/mistral-forge-nvidia-gtc-build-your-own-ai-enterprise/


⚡ 快讯

  • Unsloth Studio 发布,开源 Web UI 训练和运行 LLM — Unsloth 团队推出了可视化训练界面,支持本地和云端 LLM 微调 r/LocalLLaMA → 如果你觉得命令行训练 LLM 太麻烦,这个 Web UI 可以让你用图形界面完成整个流程

  • Mistral 发布 Leanstral-2603,首个开源 Lean 4 代码 Agent — 专为数学证明和形式化验证设计的 Agent,支持 Lean 4 语法 r/LocalLLaMA → 数学和形式化验证领域的开发者可以试试,这是目前唯一专门为 Lean 4 优化的开源模型

  • 研究发现 LLM 遗忘指令的方式类似 ADHD 大脑 — 开发者在构建长时 Agent 工作流时发现 LLM 会像 ADHD 患者一样"忘记"早期指令,研究揭示了注意力机制的局限 r/artificial → 如果你的 Agent 在长对话中表现不稳定,可能需要定期重复关键指令或用外部记忆系统

  • NVIDIA 和电信公司合作构建 AI 推理网格 — NVIDIA 在 GTC 上宣布与电信运营商合作,在分布式网络上优化 AI 推理,降低延迟 NVIDIA AI Blog → 边缘 AI 应用的延迟和成本可能会因此降低,关注你的应用是否能从分布式推理中受益

  • NVIDIA RTX 电脑现可直接连接 Apple Vision Pro — NVIDIA CloudXR 与 Apple Vision Pro 原生集成,支持高质量 XR 内容串流 NVIDIA AI Blog → 如果你在开发 Vision Pro 应用且需要高性能渲染,现在可以用 NVIDIA GPU 做后端计算

  • Google 宣布对开源安全的新投资 — Google 加大对 AI 时代开源安全的投入,包括漏洞检测和供应链安全工具 Google AI Blog → 开源项目维护者可以关注 Google 提供的安全工具,帮助识别依赖链中的风险

  • Anthropic 播客讨论为什么 AI 应该有自己的电脑 — Felix Rieseberg 分享了 Claude Cowork 的设计理念,解释为什么给 AI 独立的计算环境能提升安全性和可控性 Latent Space → 如果你在设计 AI Agent 系统,这个播客提供了关于隔离和沙箱的实用思路