AI DAILY BRIEFING

AI 新知简报

06-19

今天最重要的变化是“agent 的工作结果开始脱离个人会话”。Artifacts、Record & Replay、PR 并行维护都在把一次执行变成可分享、可复用、可审计的组织资产。

Claude Code Artifacts 把终端里的 agent 工作变成团队可见的 HTML 产物。Boris Cherny 和 trq212 同时确认 Claude Code 已可上传、编辑 HTML Artifacts，并先向 Team/Enterprise 开放。它的重点不是“多一个网页预览”，而是把调试时间线、系统图、PR 走查、数据分析和 dashboard 从个人终端搬到团队共享链接里。晨报已报，午间作为今日主线延展。Codex Record & Replay：把一次电脑操作录成可复用 Skill。dotey 详细转述 Codex 的 Record & Replay：用户在 Mac 上演示一遍流程，Codex 观察后生成 Skill，之后可换参数重放。它把 Computer Use 从“逐步看屏幕”推进到“流程资产化”，适合报销、发稿、填 issue、运营后台等难以纯文字描述的固定流程。晨报已报，午间作为今日主线延展。

3 条重点 0 条链接 2 条判断

封面导读

Codex Record & Replay：把一次电脑操作录成可复用 Skill。dotey 详细转述 Codex 的 Record & Replay：用户在 Mac 上演示一遍流程，Codex 观察后生成 Skill，之后可换参数重放。它把 Computer Use 从“逐步看屏幕”推进到“流程资产化”，适合报销、发稿、填 issue、运营后台等难以纯文字描述的固定流程。晨报已报，午间作为今日主线延展。

开源/国产模型评测信号继续走强，GLM-5.2 和 Fable/Opus 讨论升温。lmsysorg 早前发布 GLM-5.2 长任务与 1M context 信号；今天 yanhua1010 提到 GLM-5.2 登顶 Design Arena，scaling01 则把开源模型与 Claude Opus/Fable 系列做横向比较。这里不把社区榜单当最终定论，但可以确认：模型竞争正从单点聊天能力转向设计、长任务、coding plan 和可用额度。

HOT SIGNALS

今日最热

不是热闹，是今天最该看的 6 个信号。

Claude Code Artifacts 把终端里的 agent 工作变成团队可见的 HTML 产物。Boris Cherny 和 trq212 同时确认 Claude Code 已可上传、编辑 HTML Artifacts，并先向 Team/Enterprise 开放。它的重点不是“多一个网页预览”，而是把调试时间线、系统图、PR 走查、数据分析和 dashboard 从个人终端搬到团队共享链接里。晨报已报，午间作为今日主线延展。

Codex Record & Replay：把一次电脑操作录成可复用 Skill。dotey 详细转述 Codex 的 Record & Replay：用户在 Mac 上演示一遍流程，Codex 观察后生成 Skill，之后可换参数重放。它把 Computer Use 从“逐步看屏幕”推进到“流程资产化”，适合报销、发稿、填 issue、运营后台等难以纯文字描述的固定流程。晨报已报，午间作为今日主线延展。

开源/国产模型评测信号继续走强，GLM-5.2 和 Fable/Opus 讨论升温。lmsysorg 早前发布 GLM-5.2 长任务与 1M context 信号；今天 yanhua1010 提到 GLM-5.2 登顶 Design Arena，scaling01 则把开源模型与 Claude Opus/Fable 系列做横向比较。这里不把社区榜单当最终定论，但可以确认：模型竞争正从单点聊天能力转向设计、长任务、coding plan 和可用额度。

CURATED DIGEST

分组精华

按来源分组，保留有效信息，去掉废话和重复语气。

官方 / 创始团队

@bcherny

Claude Code Artifacts 已进入他的日常工作：复杂代码解释、系统图、动画方案预览、数据分析和团队 dashboard 都可以生成可分享页面。英文原文的重点是“协作界面”，不是单纯展示文件。（原文：https://x.com/bcherny/status/2067700226669060207）

查看原帖

@trq212

Claude Code 现在可上传和编辑 HTML artifacts，先从团队内部共享开始，之后会到 Pro 和 Max。晨报已报，午间保留为今日主线延展。（原文：https://x.com/trq212/status/2067682475611242546）

查看原帖

Agent / Coding Workflow

@dotey

Codex Record & Replay 将一次桌面操作转成可检查、可编辑、可重放的 Skill。它解决的是“流程固定但难以写成提示词”的长尾办公自动化问题。（原文：https://x.com/dotey/status/2067699358586253663）

查看原帖

@theo

让 Codex 清理 stale PR：无用的关闭，过期但有价值的复活；每个复活 PR 再开一个构建线程和一个 review 线程。这里的关键不是“AI 写代码”，而是并行维护 backlog。（原文：https://x.com/theo/status/2067688557448470761）

查看原帖

@dotey

Codex 控制电脑可分成 Computer Use、Chrome 扩展和内置浏览器三类：前者通用但慢，Chrome 适合带登录状态的网页任务，内置浏览器适合开发沙盒。这个分类有助于判断什么任务该交给哪种 agent 通道。（原文：https://x.com/dotey/status/2067033481142509588）

查看原帖

@vista8

有人把 MCP 接到网页版 ChatGPT，让 ChatGPT 读取本地文件，作为 Codex 额度用尽后的临时开发通道。做法有启发，但权限边界和账号风险要自己把住。（原文：https://x.com/vista8/status/2067762899813274072）

查看原帖

开源评测 / 模型能力

@yanhua1010

称 GLM-5.2 登顶 Design Arena 并超过 Claude Fable 5，但同时指出 GLM Coding plan 难抢。先记录为社区榜单与供给侧热度，不当成绝对能力结论。（原文：https://x.com/yanhua1010/status/2067785793494757473）

查看原帖

@scaling01

多条帖子围绕开源模型与 Opus/Fable/GPT-5.2 的相对位置做比较，判断大意是开源模型在追近，但仍可能落后最强闭源模型约数月。该类比较依赖社区图和非完整上下文，适合看趋势，不适合下采购结论。（原文：https://x.com/scaling01/status/2067719802211156206）

查看原帖

@lmsysorg

GLM-5.2 以 1M context、长任务和 coding 指标作为卖点进入社区讨论，和今天 Design Arena 争议形成同一条线：模型榜单正在从聊天转向长上下文、设计、代码和 agentic task。（原文：https://x.com/lmsysorg/status/2066941143536013622）

查看原帖

中文精选

@vista8

推荐一套 Meta Skill，称其整合了 Claude Code 源码泄露线索和多模型 skill 写法。这里更值得注意的是“skill 生成 skill”的需求变强：agent 生态开始围绕可复用流程资产竞争。（原文：https://x.com/vista8/status/2067748609509257601）

查看原帖

@Khazix0918

现场观察腾讯 WorkBuddy，称国内通用办公 agent 的真实日活和增长可能被低估。对国内生态来说，入口未必在 IDE，而可能先在企业 IM、云服务和办公后台。（原文：https://x.com/Khazix0918/status/2066895528982655317）

查看原帖

@yanhua1010

用双缝干涉引出“主动干预会改变系统”的观点，认为机器人和科学实验类 agent 不能只做相关性拟合，必须能行动、测量、再修正。（原文：https://x.com/yanhua1010/status/2067413630791148004）

查看原帖

EDITOR'S TAKE

今日判断

评测讨论也在同步换题：大家不再只问模型聊天多强，而是在追问它能不能跑长任务、能不能复用流程、能不能在团队里留下可靠产物。