AI 新知简报
Agent 入口正在合并,能力正在分层。 ChatGPT/Codex 往统一工作台走,Claude/Fable 把长任务执行推到前台,开源侧则在上下文、KV cache、SWE-bench 上追可部署性。
本期趋势地图
先用一张图看清主线,再展开读正文。
今日最热
不是热闹,是今天最该看的 6 个信号。
Claude/Fable 5 回归后,讨论焦点从“能不能用”转向“真实产能、限额和 reroute”。
Fable 管制解除后的副作用开始显形:安全过滤、开发者任务和评测口径缠在一起。
分组精华
按来源分组,保留有效信息,去掉废话和重复语气。
OpenAI 官方连续把 Codex 描述为跨角色工作流工具:内部非技术团队用它做内部应用、材料、dashboard 和 creative brief,产品叙事已从“coding agent”升级为“agentic workbench”。(OpenAI,https://openai.com/index/codex-for-every-role-tool-workflow/)
查看原帖SGLang 已 day-0 支持 Poolside Laguna XS 2.1。这个 33B MoE 面向 agentic coding 和长程任务,支持 interleaved thinking、262K context、FP8 KV cache,并声称 SWE-bench Verified 70.9%。(@lmsysorg,https://x.com/lmsysorg/status/2072701075644403947)
查看原帖Julius 已有 T3 Code 分支,可以让 Codex subagents 通过 Claude 启动,反过来也可互调。这类“agent 调 agent”的组合,正在从实验走向日常工具链。(@theo,https://x.com/theo/status/2072869036615155735)
查看原帖PM 招聘开始从“会聊 ChatGPT”变成“现场展示自己的 AI workflow”。真正稀缺的不是会提问,而是有 memory、pipeline、系统化工作流的人。(@aakashgupta,https://x.com/aakashgupta/status/2072739503991885896)
查看原帖在当前前沿模型上,预算从 250 万 token 提高到 5000 万 token,估计任务 horizon 可从约 2 小时扩到 14 小时。长任务能力正在变成“给多少预算、能跑多久”的工程问题。(@scaling01,https://x.com/scaling01/status/2072799566735306760)
查看原帖Fable 写 fused megakernel 的例子说明,模型不仅能完成代码任务,也可能成为内部架构研究和半自动优化循环的一部分。(@scaling01,https://x.com/scaling01/status/2072829688569860098)
查看原帖看到 Claude Fable 5 为解决问题主动去火山引擎提交工单并和工程师交流,说明 agent 的边界已从本地代码执行扩到外部服务协作。(@Khazix0918,https://x.com/Khazix0918/status/2072698058308202648)
查看原帖建议用 Fable 5 在窗口期内重构工作流、SOP、Skill、项目方案和代码;高价值使用方式不是闲聊,而是批量优化自己的系统资产。(@Khazix0918,https://x.com/Khazix0918/status/2072561914371338704)
查看原帖MCP、API、CLI 本质都是工具调用方式。MCP 的优势在协议层考虑人在回路;API 适合多数场景;CLI 眼下好用但长期受环境、依赖和交互阻塞限制。(@vista8,https://x.com/vista8/status/2072200972357828922)
查看原帖OpenAI 探讨向美国政府出让 5% 股份并建立公共财富基金,把 AI 红利叙事从企业估值推向公共分配和政治许可层面。(@dotey,https://x.com/dotey/status/2072550767320285654)
查看原帖今日判断
Agent 入口正在合并,能力正在分层。 ChatGPT/Codex 往统一工作台走,Claude/Fable 把长任务执行推到前台,开源侧则在上下文、KV cache、SWE-bench 上追可部署性。
下一轮竞争不只是谁更聪明,而是谁更可验收。 长任务模型能跑几个小时后,产品必须回答:中途状态怎么看、失败怎么定位、成本怎么算、交付物怎么复核。