AI 新知简报
今天最重要的变化是“agent 的工作结果开始脱离个人会话”。Artifacts、Record & Replay、PR 并行维护都在把一次执行变成可分享、可复用、可审计的组织资产。
今日最热
不是热闹,是今天最该看的 6 个信号。
Codex Record & Replay:把一次电脑操作录成可复用 Skill。dotey 详细转述 Codex 的 Record & Replay:用户在 Mac 上演示一遍流程,Codex 观察后生成 Skill,之后可换参数重放。它把 Computer Use 从“逐步看屏幕”推进到“流程资产化”,适合报销、发稿、填 issue、运营后台等难以纯文字描述的固定流程。晨报已报,午间作为今日主线延展。
开源/国产模型评测信号继续走强,GLM-5.2 和 Fable/Opus 讨论升温。lmsysorg 早前发布 GLM-5.2 长任务与 1M context 信号;今天 yanhua1010 提到 GLM-5.2 登顶 Design Arena,scaling01 则把开源模型与 Claude Opus/Fable 系列做横向比较。这里不把社区榜单当最终定论,但可以确认:模型竞争正从单点聊天能力转向设计、长任务、coding plan 和可用额度。
分组精华
按来源分组,保留有效信息,去掉废话和重复语气。
Claude Code Artifacts 已进入他的日常工作:复杂代码解释、系统图、动画方案预览、数据分析和团队 dashboard 都可以生成可分享页面。英文原文的重点是“协作界面”,不是单纯展示文件。(原文:https://x.com/bcherny/status/2067700226669060207)
查看原帖Claude Code 现在可上传和编辑 HTML artifacts,先从团队内部共享开始,之后会到 Pro 和 Max。晨报已报,午间保留为今日主线延展。(原文:https://x.com/trq212/status/2067682475611242546)
查看原帖Codex Record & Replay 将一次桌面操作转成可检查、可编辑、可重放的 Skill。它解决的是“流程固定但难以写成提示词”的长尾办公自动化问题。(原文:https://x.com/dotey/status/2067699358586253663)
查看原帖让 Codex 清理 stale PR:无用的关闭,过期但有价值的复活;每个复活 PR 再开一个构建线程和一个 review 线程。这里的关键不是“AI 写代码”,而是并行维护 backlog。(原文:https://x.com/theo/status/2067688557448470761)
查看原帖Codex 控制电脑可分成 Computer Use、Chrome 扩展和内置浏览器三类:前者通用但慢,Chrome 适合带登录状态的网页任务,内置浏览器适合开发沙盒。这个分类有助于判断什么任务该交给哪种 agent 通道。(原文:https://x.com/dotey/status/2067033481142509588)
查看原帖有人把 MCP 接到网页版 ChatGPT,让 ChatGPT 读取本地文件,作为 Codex 额度用尽后的临时开发通道。做法有启发,但权限边界和账号风险要自己把住。(原文:https://x.com/vista8/status/2067762899813274072)
查看原帖称 GLM-5.2 登顶 Design Arena 并超过 Claude Fable 5,但同时指出 GLM Coding plan 难抢。先记录为社区榜单与供给侧热度,不当成绝对能力结论。(原文:https://x.com/yanhua1010/status/2067785793494757473)
查看原帖多条帖子围绕开源模型与 Opus/Fable/GPT-5.2 的相对位置做比较,判断大意是开源模型在追近,但仍可能落后最强闭源模型约数月。该类比较依赖社区图和非完整上下文,适合看趋势,不适合下采购结论。(原文:https://x.com/scaling01/status/2067719802211156206)
查看原帖GLM-5.2 以 1M context、长任务和 coding 指标作为卖点进入社区讨论,和今天 Design Arena 争议形成同一条线:模型榜单正在从聊天转向长上下文、设计、代码和 agentic task。(原文:https://x.com/lmsysorg/status/2066941143536013622)
查看原帖推荐一套 Meta Skill,称其整合了 Claude Code 源码泄露线索和多模型 skill 写法。这里更值得注意的是“skill 生成 skill”的需求变强:agent 生态开始围绕可复用流程资产竞争。(原文:https://x.com/vista8/status/2067748609509257601)
查看原帖现场观察腾讯 WorkBuddy,称国内通用办公 agent 的真实日活和增长可能被低估。对国内生态来说,入口未必在 IDE,而可能先在企业 IM、云服务和办公后台。(原文:https://x.com/Khazix0918/status/2066895528982655317)
查看原帖用双缝干涉引出“主动干预会改变系统”的观点,认为机器人和科学实验类 agent 不能只做相关性拟合,必须能行动、测量、再修正。(原文:https://x.com/yanhua1010/status/2067413630791148004)
查看原帖今日判断
今天最重要的变化是“agent 的工作结果开始脱离个人会话”。Artifacts、Record & Replay、PR 并行维护都在把一次执行变成可分享、可复用、可审计的组织资产。
评测讨论也在同步换题:大家不再只问模型聊天多强,而是在追问它能不能跑长任务、能不能复用流程、能不能在团队里留下可靠产物。