AI 日报 | 2026-03-14

Claude 1M context 全量开放无溢价;Shopify 用 AI Agent 优化 Liquid 性能提升 53%

🦞 AI 日报 | 2026-03-14


📰 今日深度

1. Claude 1M context 全量开放,无长文本溢价

来源:Simon Willison

Anthropic 宣布 Opus 4.6 和 Sonnet 4.6 的 1M token context 现已全量开放,最关键的变化是标准定价适用于整个 1M 窗口,没有长文本溢价。

这打破了行业惯例。OpenAI 和 Google 都对超过特定 token 数的请求收取更高费用——Gemini 3.1 Pro 在 200K token 处开始溢价,GPT-5.4 在 272K token 处开始溢价。Anthropic 的做法意味着用户可以在不增加成本的情况下处理整部小说、完整代码库或数月的对话历史。

对开发者的影响是直接的:RAG 系统可以一次性加载更多上下文而不担心成本爆炸,长文档分析变得更经济。这也给了 Claude 在长文本应用上的竞争优势。

关键数据:标准定价覆盖全 1M token 范围,无分层溢价

🔗 原文链接


2. Shopify CEO 用 AI Agent 优化 Liquid 模板引擎,性能提升 53%

来源:Simon Willison

Shopify CEO Tobias Lütke 提交了一个 PR,用 AI Agent 对 Liquid(Shopify 的开源 Ruby 模板引擎)进行性能优化。这个 PR 包含 93 个 commit,来自约 120 次自动化实验,最终实现了 53% 的解析+渲染性能提升和 61% 的内存分配减少。

Tobi 使用了 Andrej Karpathy 的 autoresearch 系统的变体——让 coding agent 自动运行数百次半自主实验来发现优化技巧。他从两天前的一个 autoresearch.md prompt 文件和 autoresearch.sh 脚本开始,agent 自动执行测试套件并报告基准分数。

具体优化包括:用 String#byteindex 替换 StringScanner tokenizer(单字节搜索快 40%,单独就减少了 12% 的解析时间);消除每个 {% %} token 的 StringScanner 重置开销;预计算 0-999 的整数字符串表示以避免 267 次分配。

这个案例说明了几个重要趋势:(1) 健壮的测试套件(974 个单元测试)是 AI Agent 工作的巨大解锁;(2) autoresearch 模式——agent 头脑风暴多个改进方案然后逐一实验——非常有效;(3) 给 agent 一个可衡量的目标("让它更快")就能转化为可执行的工作。Tobi 的 GitHub 贡献图显示,自 2025 年 11 月 coding agent 变强后,他的代码贡献量明显上升。

关键数据:53% 性能提升,61% 内存分配减少,93 个 commit,120 次自动化实验

🔗 原文链接


⚡ 快讯

  • zer0dex:本地 LLM Agent 的双层记忆系统 — 持久化 Agent 记忆达到 91.2% 召回率,相比基准的 80.3% 有显著提升 r/MachineLearning → 本地 Agent 现在可以更可靠地记住长期对话和任务状态,适合需要持久化上下文的应用

  • How (and what) I'm building this week — 开发者分享当周的技术栈、指令、工具和技能选择 Ben's Bites → 了解实战开发者在用什么工具和方法论,可以参考优化自己的工作流

  • [AINews] 提升 LLM 期望值的高回报活动 — OpenAI 研究员观点:那些对 LLM 能力有更高期望的人获得了更多收益,而保守评估的人大多没有进展 Latent Space → 心态决定了 AI 工具的价值提取——敢于尝试更复杂的任务,而不是只用 AI 做简单替代

  • Les Orchard 评论:AI 辅助编码呈指数增长 — 知名开发者观察到 AI 编码助手的采用和能力在加速 Simon Willison → 编码工作流正在快速演变,不适应的开发者可能面临效率差距

  • ArkSim:多轮对话 AI Agent 测试工具 — 开发者开源了用于模拟多轮对话场景的 Agent 测试框架 r/artificial → 如果你在构建 Agent,这个工具可以帮助你在部署前验证多轮交互的稳定性

  • 清华哈佛联合推出可操控 AI 平台 — 全球首个可操控 AI 平台发布,用户可以干预 AI 决策过程 量子位 → 从"全自动"到"人在回路"的转变,适合需要可解释性和可控性的应用场景

  • NVIDIA NeMo Retriever 推出通用检索代理 — 超越语义相似度的检索方法,支持更复杂的信息获取逻辑 Hugging Face Blog → RAG 系统可以用更智能的检索策略替代简单的向量相似度匹配

  • 全盲开发者分享 AI 工具使用体验 — 视障用户讨论哪些本地 LLM 最适合无障碍使用 r/LocalLLaMA → AI 工具的无障碍设计正在改善,值得关注这个用户群体的反馈

  • Anthropic 与五角大楼的对峙反映大科技 AI 政策转向 — 科技巨头在 AI 军事应用上的立场正在改变 r/artificial → 政策和商业压力正在重塑 AI 公司的应用边界

  • 工业 AI 和数字孪生加速设计工程 — NVIDIA 展示 AI 物理和加速计算在工业设计中的应用 NVIDIA AI Blog → 制造业和工程领域的 AI 应用正在从概念进入实际部署阶段

  • 务实设计:为真实世界工程 AI — MIT Technology Review 分析 AI 系统从实验室到生产环境的挑战 MIT Technology Review → 真实世界的 AI 部署需要考虑成本、延迟、可靠性等工程约束,不只是模型精度


🔮 博客选题

  • 选题:用 AI Agent 优化你的代码性能——从 Shopify Liquid 案例学习 autoresearch 模式
    • 切入角度:Shopify CEO 用 AI Agent 在两天内优化出 53% 性能提升的故事很吸引人,但核心方法论——autoresearch 模式(让 agent 自动尝试多个优化方案)——对独立开发者也适用。可以写一篇"如何用 Claude/GPT 对你的项目做性能优化"的实战教程,包括如何写 prompt、如何设置基准测试、如何让 agent 自动迭代。读完能做什么:周末就能对自己的项目试试这个方法。
    • 来源新闻:Shopify/liquid 性能优化案例