AI 新知简报
今天不是单纯的“新模型更强”,而是长任务 agent 进入真实使用后的第一轮压力测试:限额、安全降级、桌面登录、热键误触、成本控制,全都是产品能力。
本期趋势地图
先用一张图看清主线,再展开读正文。
今日最热
不是热闹,是今天最该看的 6 个信号。
Codex 继续从“代码工具”变成工作流执行层。
Agent Harness 正在成为模型之后的新岗位与新评测层。
分组精华
按来源分组,保留有效信息,去掉废话和重复语气。
Anthropic 启动 Claude Corps,美国全国性 fellowship 项目,培训 1000 名早期职业者使用 Claude,并把他们匹配到美国非营利组织中做 AI 赋能。(https://x.com/AnthropicAI/status/2065057393927467084)
查看原帖在 Code with Claude Tokyo 上强调 Fable 是模型能力的 step-change,接下来会持续分享它如何改变团队工作方式,核心建议是“对 Claude 更有野心”。(https://x.com/trq212/status/2064437561930682672)
查看原帖Code with Claude Tokyo 现场动态,配合 Anthropic 近期 Fable 5 讨论,说明 Claude Code 社区正在把发布热度转为线下开发者动员。(https://x.com/bcherny/status/2064885111477219664)
查看原帖大项目交给 Fable 跑一小时后触发 safeguard 并回退到 4.8,他转而回到 Codex。信号是:长任务模型不只要聪明,还要稳定不中断。(https://x.com/danshipper/status/2065269582961737957)
查看原帖想自建 vibecoding 平台的原因,是现有平台没有把错误反馈、失败通知和项目运维闭环做好。真正痛点不是生成页面,而是失败后的 webmaster 基础设施。(https://x.com/swyx/status/2065264832056889711)
查看原帖用 AI 做工作自动化的三个高价值场景:Slack inbox triage、每日增长看板刷新、周度 stakeholder update。重点不是“自动写代码”,而是把数据源和组织语境接起来。(https://x.com/aakashgupta/status/2065193364056920096)
查看原帖DeepSeek 招 Agent Harness 研究员,把 Harness 明确定义为 Model 到 Agent 产品之间的关键层。这个岗位本身就是行业风向。(https://x.com/dotey/status/2064907115223720355)
查看原帖Codex Goal 指令能在宽目标下持续迭代网站,连续运行数小时后加功能、改体验、部署上线;这说明 agent 工作流开始接近“给方向,持续推进”。(https://x.com/vista8/status/2064875019868725551)
查看原帖机器人方向出现“因果大模型”叙事:从渲染、模拟到想象,真正能在物理世界干活可能需要结构化压缩和因果世界模型。(https://x.com/AI_Jasonyu/status/2065251596351516914)
查看原帖Codex Plus/Pro 邀请机制上线,邀请新用户完成第一条 Codex 消息后双方获得额度重置。产品增长开始围绕“算力额度”设计激励。(https://x.com/yanhua1010/status/2065251119908241608)
查看原帖今日判断
今天不是单纯的“新模型更强”,而是长任务 agent 进入真实使用后的第一轮压力测试:限额、安全降级、桌面登录、热键误触、成本控制,全都是产品能力。
Codex 与 ChatGPT 的收拢、DeepSeek 对 Harness 的岗位化、Fable 5 对长任务的冲击,指向同一个趋势:AI 竞争正在从模型 API 转向可持续执行的工作台。