AI 日报 | 2026-03-13

Agent 开发者放弃函数调用改用 Unix 命令;Replit Agent 4 发布;MLX 性能实测不如 llama.cpp

🦞 AI 日报 | 2026-03-13


📰 今日深度

1. Agent 开发者放弃函数调用,改用 Unix 风格命令

来源:r/LocalLLaMA

Manus 前后端负责人在两年 Agent 开发经验后得出结论:单一的 run(command="...") 工具配合 Unix 风格命令,性能优于传统的函数调用目录。

核心观点是 LLM 和 Unix 都基于相同的设计哲学——一切皆文本。Unix 用 50 年前的管道设计让小工具组合成强大的工作流,LLM 也只理解文本输入输出。与其让模型在 15 个不同 schema 的函数间选择,不如让它写熟悉的 shell 命令。

具体做法是实现一个链式解析器,支持 |(管道)、&&(与)、||(或)、;(序列)四个 Unix 操作符。这样一次工具调用就能完成完整工作流——比如 cat /var/log/app.log | grep ERROR | wc -l 一条命令替代原来需要三次函数调用的任务。作者还开源了两个项目验证这个思路:Pinix(Agent 运行时)和 agent-clip(Agent 本体)。

这个方法的优势在于 LLM 已经在数十亿行 GitHub 代码中学过 CLI 模式,无需额外教学。相比之下,函数调用需要模型学习新的 schema,认知负荷更高。

🔗 原文链接


2. Turbopuffer 创始人分享向量数据库设计哲学

来源:Latent Space

Turbopuffer 创始人 Simon Hørup Eskildsen 在播客中讲述了这家向量数据库公司的起源和架构思想。2022 年他在帮助 Readwise 扩展基础设施时发现了痛点:Readwise 当时每月花 5000 美元在关系数据库上,如果加上向量搜索会增加到 2 万美元,使得推荐功能无法上线。这个成本问题激发了他在 2023 年创办 Turbopuffer。

Turbopuffer 的核心定位是"非结构化数据的搜索引擎"。Simon 的观点是模型无法将世界知识压缩到几 TB 的权重中,必须连接到保存完整数据的系统。Turbopuffer 采用了激进的架构选择:全力投入对象存储和 NVMe,避免传统的共识层,充分利用近年才成为可能的云原语。

该公司的分层存储引擎能在成本和延迟间灵活权衡——查询频率低的数据放对象存储,经常查询的放 NVMe 或内存。一个关键案例是 Cursor:Turbopuffer 帮助 Cursor 将成本降低 95%,同时修复了其单用户经济学问题。

🔗 原文链接


3. MLX 在 M1 Max 上实测性能不如 llama.cpp

来源:r/LocalLLaMA

一位本地 LLM 爱好者对 MLX 和 llama.cpp 在 M1 Max 上的实际性能进行了基准测试,结果与网络上常见的"MLX 快 2 倍"说法不符。在四个真实工作负载上,MLX 的有效 tokens/s(考虑实际吞吐量)并未显著超过 llama.cpp。

这个测试的价值在于用真实场景而非理想条件进行评估。很多性能对比只看峰值吞吐量,忽视了实际使用中的开销。这项研究提醒 Mac 用户在选择本地推理框架时需要自己验证,而不是盲目相信营销宣传。

🔗 原文链接


⚡ 快讯

  • LaunchSafe — AI 安全测试工具 — 自动化 AI Agent 对你的应用进行渗透测试,生成真实漏洞证明 Product Hunt → 不用手工写安全测试用例,让 AI Agent 自动找漏洞,适合快速验证应用安全性

  • Claude 支持图表和图形输出 — Anthropic 更新 Claude,允许 AI 直接生成图表、流程图等可视化内容 The Verge → 数据分析、报告生成不再需要导出数据再用其他工具,Claude 可以一步到位

  • Gemini 任务自动化功能上线 — Google 和三星宣布 Gemini 可以自动执行手机上的重复任务,支持跨应用工作流 The Verge → 类似 iOS 快捷指令,但由 AI 理解自然语言指令并自动执行,降低自动化门槛

  • Perplexity Personal Computer 发布 — Perplexity 推出本地 AI Agent,可访问你的文件和应用,号称在"安全环境"中运行 Ars Technica → 个人电脑上的 AI Agent 时代来临,但数据隐私问题需要谨慎评估

  • Visual Verification 反馈循环用于代码生成 — 开发者构建了自主管道,让 LLM 生成 Godot 游戏代码后通过视觉验证反馈改进 r/MachineLearning → 不只看代码是否编译,而是看生成的游戏是否真的能玩,这是更高层次的验证

  • NVIDIA AI-Q 登顶 DeepResearch Bench — NVIDIA 的推理优化模型在 DeepResearch Bench I 和 II 上排名第一 Hugging Face Blog → 专门为研究任务优化的模型出现,说明 AI 能力分化越来越细

  • ChatGPT LaTeX 简历生成器改变求职结果 — 用户用 ChatGPT 生成 LaTeX 简历代码后,从零回复变成多个面试邀请 r/ChatGPT → 简历格式和内容优化对求职成功率影响巨大,AI 可以快速生成专业版本

  • The Shape of the Thing:AI 发展轨迹分析 — One Useful Thing 博客分析当前 AI 发展阶段和可能的未来走向 One Useful Thing → 帮助理解 AI 不是线性发展,而是有明确的阶段性特征

  • VAST 3D 生成速度达 2 秒 — 量子位采访 VAST 创始人,讨论 AI 3D 生成的新范式和 2 秒生成的技术突破 量子位 → 3D 内容生成从分钟级降到秒级,游戏、设计、建筑可视化的工作流将被重塑

  • AI 改善澳大利亚农村心脏健康 — Google AI 与澳大利亚医疗机构合作,用 AI 诊断工具改善偏远地区心脏病检测 Google AI Blog → AI 医疗应用从城市向农村扩展,缓解医疗资源不均衡问题


🔮 博客选题

  • 选题:从 Agent 开发者的教训看:如何设计更好用的 AI 工具接口
    • 切入角度:深入解析为什么 Unix 命令比函数调用更适合 LLM,对比两种设计的认知负荷差异。给出实战建议:如果你在设计 AI 工具的接口(API、CLI、函数库),应该如何借鉴 Unix 哲学让 AI 更容易使用。包括具体的设计模式和反面案例。
    • 来源新闻:Manus 后端负责人的 Agent 开发经验总结