AI 日报 | 2026-03-31

Claude Code 加入可直接操作桌面的 computer use 研究预览;OpenAI 在曼谷联合多家机构举办亚洲灾害管理 AI 工作坊;AI 医疗工具加速进入临床与患者服务场景,但有效性与评估标准仍待补齐

🦞 AI 日报 | 2026-03-31


📰 今日深度

1. Claude Code 加入 computer use:命令行代理开始真正“碰到”图形界面
来源:Claude 官方 X

Anthropic 在 2026-03-31 宣布,computer use 已进入 Claude Code,并以 research preview 形式向 Pro 和 Max 套餐开放。官方给出的能力描述很直接:Claude 可以“打开你的应用、在 UI 里点击,并测试它刚刚构建出的内容”,而入口仍然是开发者熟悉的 CLI。这意味着代码代理不再只停留在编辑器、终端和文件系统,而是开始进入真实桌面工作流。

它重要的地方在于,很多开发流程真正卡住的不是“写代码”,而是最后那段人工验证:点按钮、走表单、确认界面状态、复现 bug。现在模型如果能把“生成代码 + 打开应用 + 自测 UI”串成一个回路,开发者能减少在上下文切换上的时间,产品经理和设计师也更容易把它用于冒烟测试、原型验证和回归检查。不过这也带来新的边界问题:权限、误操作、测试环境隔离,都会变成实际落地时必须先处理的前提。

💡 怎么试更稳:先把它放进隔离测试环境,只授权浏览器、开发版应用和演示账号;把“可点击范围”和“禁止动作”写进提示词,优先用于 UI 冒烟测试,而不是直接连生产系统。

关键数据: research preview;面向 Pro / Max;可 open apps / click through UI / test what it built;入口为 CLI
🔗 Claude 官方公告


2. OpenAI 在曼谷办灾害管理 AI 工作坊:先把 AI 放进一线响应流程
来源:OpenAI

OpenAI 于 2026-03-29 发布博文,披露其与 Gates Foundation、Asian Disaster Preparedness Center、DataKind 在曼谷举办首届面向灾害管理专业人士的 AI Jam。现场共聚集 50 位 来自 13 个国家 的灾害管理负责人,主题不是展示模型能力,而是把 AI 嵌进日常工作:情况通报、需求评估、公众沟通,以及可复用的 custom GPT 工作流。

这件事值得关注,不只是因为它“做公益”。原文给出两组很具体的数据:亚洲约占全球受灾人口的 75%,而世界银行估计,灾害已给 ASEAN 国家造成超过 110 亿美元 的损失。更关键的是行为侧信号:斯里兰卡在 Cyclone Ditwah 期间,ChatGPT 中与气旋相关的消息量增长了 17 倍;泰国在 2025 年 11 月 的 Cyclone Senyar 期间也出现 3.2 倍 的增长。这说明公众已经在灾时主动把 AI 当信息入口,下一步自然是让响应团队把它纳入正式流程,而不是停留在零散试用。

💡 对中小团队的启发:如果你的产品服务政府、医疗、教育或 NGO,别只做“通用 AI 助手”。更有价值的是把高频场景拆成固定模板:信息汇总、风险分级、对外通告草稿和多语言问答。

关键数据: 50 位灾害管理领导者;来自 13 国;亚洲占全球受灾人口约 75%; ASEAN 损失超 110 亿美元;灾时相关消息量增长 17×3.2×
🔗 OpenAI 原文


3. AI 医疗工具越来越多,但“好不好用”开始成为核心问题
来源:MIT Technology Review

MIT Technology Review 在 2026-03-30 发文,讨论 AI 医疗工具数量持续增加,但临床效果、可靠性和真实使用价值仍缺少一致答案。摘要提到,Microsoft 本月早些时候推出 Copilot Health,这说明大厂正在把 AI 更积极地推进到医疗场景,从医生工作流到患者服务都在加速试水。

这条新闻的重要性在于,医疗不是一个可以只看“演示效果”的行业。对创业者和产品团队来说,真正的门槛不只是模型能否回答问题,而是能否通过评估、嵌入现有流程、让医护人员愿意持续使用。未来这一赛道的竞争,很可能会从“谁先上 AI”转向“谁能证明它在什么场景下有效、何时必须由人接管”。

关键数据: 文中提及 Microsoft 于本月早些时候推出 Copilot Health
🔗 MIT Technology Review 报道


⚡ 快讯

  • datasette-llm 0.1a3 发布 — Simon Willison 发布 datasette-llm 0.1a3,新版本加入更多配置能力,继续把 LLM 调用和结果管理嵌入 Datasette 工作流,适合做轻量查询与原型验证。 Simon Willison → 如果你常用 SQLite/Datasette 做内部工具,这类插件会让“查数据+调模型”更接近一个界面完成。

  • ML pipeline 原型借鉴 Unix 哲学 — r/MachineLearning 上公开一个开源原型,主张把机器学习流水线拆成模块化、可替换阶段,并用类型化契约连接各环节,降低系统耦合度。 r/MachineLearning → 对做 AI 产品的团队,这类设计思路有助于减少“换模型就要重写整条链路”的成本。

  • Mike Krieger:AI 时代“构建”不再是最难部分 — Every 新一期访谈邀请 Instagram 联合创始人、Anthropic Labs 联席负责人 Mike Krieger,视频时长约 26 分钟,讨论 AI 原生产品的机会与约束。 Every → 对产品经理和创业者,重点不是再争论能不能做,而是如何分发、留存和形成产品闭环。

  • Georgi Gerganov 再谈本地模型常见误区 — Simon Willison 转引 llama.cpp 作者 Georgi Gerganov 的观点,提醒用户当前对本地模型的很多问题仍是“在不知情状态下踩坑”,核心集中在使用方式与系统理解偏差。 Simon Willison → 如果你在评估本地部署,别只看跑起来没有,要先搞清上下文、量化和推理环境的限制。

  • 社区实测:Qwen3.5-27B 被当作 OpenCode 主模型跑本地代理 — r/LocalLLaMA 有新实测帖,作者尝试把 Qwen3.5-27B 作为 OpenCode/OpenAI Codex 类代理编程助手的主模型,验证本地方案是否能承担主工作流。 r/LocalLLaMA → 这类实验的意义不在“完全替代云端”,而在帮助团队判断哪些编码任务已值得先在本地处理。

  • Ai2 开源模型投入收缩引发讨论 — 量子位报道称,Ai2 正削减开源模型相关资金与投入,并出现研发人员流动,这让“谁继续长期支持开源大模型”再度成为行业话题。 量子位 → 对依赖开源生态的团队,这提醒你别只看模型发布速度,也要看维护者和资金是否可持续。

  • 灾害响应团队开始把 AI 从兴趣转成流程工具 — OpenAI 在亚洲灾害管理工作坊中,让参与者直接搭建 custom GPT 和可复用工作流,覆盖情况报告、需求评估与公众沟通。 OpenAI → 这说明 AI 落地正在从“试试看”走向“把固定流程模板化”,适合更多行业借鉴。

  • AI 医疗工具进入密集上新阶段 — MIT Technology Review 指出,AI 健康工具数量持续增加,连微软也已推出 Copilot Health,但行业仍在追问这些系统实际效果如何衡量。 MIT Technology Review → 如果你做医疗或健康产品,接下来比拼的会是验证方法、责任边界和嵌入现有流程的能力。

  • Python 漏洞查询工具继续获得开发者关注 — Simon Willison 介绍的 Python Vulnerability Lookup 允许用户粘贴 pyproject.tomlrequirements.txt,直接查询 OSV.dev 漏洞数据。 Simon Willison → 对个人开发者,这是比完整 SCA 更轻量的起点,适合在发版前快速做一次依赖风险检查。

  • “基础任务不稳定”仍是大众对 AI 可靠性的主要抱怨 — r/ChatGPT 新帖继续集中吐槽模型在计数、简单执行等基础任务上的失误,反映用户对稳定性预期正在提高。 r/ChatGPT → 对做 AI 功能的产品团队,这再次说明关键流程要加校验、回退和人工确认,而不是只依赖单次输出。


🔮 博客选题

  • 选题:把 Claude Code 的 computer use 用进真实开发流程:哪些场景值得先试,哪些绝对别碰

    • 切入角度:从“UI 冒烟测试、回归验证、演示环境自动走查”三个场景切入,写清权限隔离、测试账号、操作白名单怎么配,读完能直接照着搭一套低风险试点流程。
    • 来源新闻:Claude Code 新增 computer use 研究预览
  • 选题:别再做“万能 AI 助手”了:灾害管理工作坊给垂直 SaaS 的 4 个启发

    • 切入角度:把 OpenAI 灾害响应案例拆成可复制模板:信息汇总、需求分级、对外通告、多语言问答,帮助独立开发者找到更具体的行业切口。
    • 来源新闻:OpenAI 在曼谷举办灾害管理 AI Jam
  • 选题:AI 医疗产品怎么证明自己真的有用?

    • 切入角度:面向非医疗背景创业者,整理“模型表现、流程嵌入、人机分工、责任边界”四个最容易忽视的验证点,帮助判断一个 AI 健康产品值不值得做。
    • 来源新闻:MIT Technology Review 讨论 AI 医疗工具效果评估问题