AI 日报 | 2026-03-15
Anthropic 1M context 正式 GA;Shopify CEO 用 AI Agent 优化模板引擎性能提升 53%;ChatGPT 集成 Spotify、Uber 等第三方应用
🦞 AI 日报 | 2026-03-15
📰 今日深度
1. Anthropic 1M context 正式 GA,但我们已经等了两年
来源:Latent Space
Anthropic 今天正式 GA 了 1M context 窗口,在 MRCR 基准测试中取得了 SOTA 成绩,有效对抗 Context Rot(上下文衰减)问题。这是个好消息,但值得注意的是:Gemini 早在 2024 年 2 月就实现了 1M context,Claude 3 在 2024 年 3 月也做到了,OpenAI 上周也刚刚 GA。
换句话说,1M context 窗口在理论上已经可行两年了。这意味着 context 窗口在两年内只增长了不到一个数量级,远慢于 LLM 在成本、速度、质量等其他维度的增长速度。问题的根源在于全球内存短缺——推理端根本没有足够的 HBM 甚至 DRAM 来处理这么多 context。
Sam Altman 曾在 Town Hall 上说 context 窗口会增长 100 倍,但现实是我们可能要对这个预测打个折扣。未来可能会出现"context 配给制"——免费用户只能用 1000 tokens,付费用户才能用 1M。物理约束是软件端无法逾越的,预计未来 2 年 context 窗口不会有实质性突破。
关键数据:1M context 已存在 2 年,增长速度远低于其他 LLM 指标
🔗 原文链接
2. Shopify CEO 用 AI Agent 优化 Liquid 模板引擎,性能提升 53%
Shopify CEO Tobias Lütke 提交了一个 PR,用 AI Agent 对 Liquid(Shopify 的开源 Ruby 模板引擎)进行性能优化。这个 PR 包含 93 个 commit,来自约 120 次自动化实验,最终实现了 53% 的解析+渲染性能提升和 61% 的内存分配减少。
Tobi 使用了 Andrej Karpathy 的 autoresearch 系统的变体——让 coding agent 自动运行数百次半自主实验来发现优化技巧。他从两天前的一个 autoresearch.md prompt 文件和 autoresearch.sh 脚本开始,agent 自动执行测试套件并报告基准分数。
具体优化包括:用 String#byteindex 替换 StringScanner tokenizer(单字节搜索快 40%,单独就减少了 12% 的解析时间);消除每个 {% %} token 的 StringScanner 重置开销(每次渲染调用 878 次);预计算 0-999 的整数字符串表示以避免 267 次 Integer#to_s 分配。
这个案例说明了几个重要趋势:健壮的测试套件(974 个单元测试)是 AI Agent 工作的巨大解锁;autoresearch 模式——agent 头脑风暴多个改进方案然后逐一实验——非常有效;给 agent 一个可衡量的目标("让它更快")就能转化为可执行的工作。Tobi 的 GitHub 贡献图显示,自 2025 年 11 月 coding agent 变强后,他的代码贡献量明显上升——高中断角色的人也能重新高效写代码了。
关键数据:53% 性能提升,61% 内存分配减少,93 个 commit,120 次自动化实验,974 个单元测试
🔗 原文链接
3. ChatGPT 集成 Spotify、Uber、DoorDash 等第三方应用
来源:TechCrunch
ChatGPT 现在可以直接调用 Spotify、Canva、Figma、Expedia、Uber、DoorDash 等第三方应用。用户可以在对话中直接说"帮我在 Spotify 上播放这首歌"或"用 Uber 叫车到机场",ChatGPT 会调用对应的 app 完成操作。
这标志着 ChatGPT 从"对话助手"向"操作系统级助手"的转变。过去你需要在多个 app 之间切换,现在可以用自然语言在一个界面完成。对开发者来说,这意味着 ChatGPT 正在成为一个分发渠道——如果你的产品有 API,接入 ChatGPT 可能会带来新的用户增长。
不过这也带来了新的竞争格局:垂直领域的 AI 应用(如专门的旅行规划 AI、音乐推荐 AI)可能会被 ChatGPT 的集成功能挤压。独立开发者需要思考:你的产品是做 ChatGPT 的插件,还是做 ChatGPT 做不好的深度场景?
🔗 原文链接
⚠️ 基于摘要生成,细节待验证
⚡ 快讯
-
Simon Willison 在 Pragmatic Summit 分享 Agentic Engineering 经验 — 讨论了 AI 编码工具的采用阶段、如何信任 AI 输出、TDD 在 agent 开发中的应用,以及 Showboat 工具的使用 Simon Willison → 如果你在用 coding agent,这些实战经验可以帮你避坑——比如"让 agent 先写测试"和"让 agent 手动测试 API"
-
OpenAI 研究员:提升对 LLM 的期望值是高回报活动 — 那些对 LLM 能力有更高期望的人获得了更多收益,而保守评估的人大多没有进展 Latent Space → 心态决定了 AI 工具的价值提取——敢于尝试更复杂的任务,而不是只用 AI 做简单替代
-
全盲开发者分享:AI 是游戏规则改变者,求推荐本地 LLM — 一位全盲开发者在 Reddit 分享 AI 如何改变了他的工作方式,并寻求适合视障用户的本地 LLM 推荐 r/LocalLLaMA → AI 的无障碍应用场景值得关注,如果你在做 AI 工具,考虑一下视障用户的需求
-
Xbox 今年将推出 Gaming Copilot AI 助手 — Microsoft 的 Gaming Copilot 将登陆当前世代 Xbox 主机,提供游戏内 AI 辅助功能 The Verge → AI 助手开始进入游戏场景,可能会改变游戏攻略和新手引导的形式
⚠️ 基于摘要生成,细节待验证
-
Anthropic 与五角大楼的对峙反映大科技 AI 政策转向 — Anthropic 拒绝与五角大楼合作引发争议,反映出科技公司在 AI 军事应用上的立场变化 r/artificial → 如果你在做 AI 产品,需要考虑伦理边界和政策风险——尤其是涉及敏感应用场景时
-
B站联合 6 位 UP主用 OpenClaw 直播做社会实验 — 测试 AI 能否代替人类完成开发 App、商业带货、打游戏等任务 量子位 → 这种实验可以帮你了解 AI 在真实场景中的能力边界,而不是只看 benchmark
-
Gemini 重塑谷歌地图,一句话搞定出行攻略 — 谷歌地图集成 Gemini,用户可以用自然语言规划行程,网友评论"垂直应用全完蛋" 量子位 → 大平台的 AI 集成正在挤压垂直应用的生存空间,独立开发者需要找到大平台做不好的深度场景
-
xAI 的 AI 编码工具又重启了 — Musk 的 xAI 再次重构其 AI 编码工具,团队表示"第一次没做对" TechCrunch → 即使是资源充足的团队也在 AI 编码工具上反复试错,说明这个领域还没有成熟的方法论
-
Reddit 讨论:如果 Claude 认为你的公司是邪恶的会怎样 — 用户讨论 Claude 的价值观对齐可能带来的问题,如果 AI 拒绝为某些公司工作怎么办 r/artificial → AI 的价值观对齐是个双刃剑——既能防止滥用,也可能带来误判和限制
-
AlphaEvolve 已经过时?播客讨论 AI 发现下一个 Transformer — Sakana AI 创始研究员 Robert Lange 讨论 AI 自动发现新架构的可能性 r/artificial → AI 辅助研究正在加速,但"AI 发现 AI"的叙事需要谨慎对待——大多数突破仍然需要人类洞察
🔮 博客选题
- 选题:用 autoresearch 模式优化你的代码库:从 Shopify CEO 的实践学到的
- 切入角度:手把手教读者如何用 coding agent + autoresearch 模式优化现有项目性能。包括:如何写 autoresearch.md prompt、如何设计基准测试脚本、如何让 agent 自动运行实验、如何从 100+ 次实验中筛选有效优化。目标是让读者周末就能对自己的项目跑一轮自动化优化实验。
- 来源新闻:Shopify CEO 用 AI Agent 优化 Liquid 模板引擎性能提升 53%