Opus 4.7 一夜点燃开发圈,关注点从“更强”迅速转向“怎么用稳、怎么控住”
Boris 直说 Opus 4.7 比 4.6 更聪明、更 agentic,也更精确,但需要几天才能摸到正确用法;Theo 紧跟着吐槽新版系统提示把模型“管得太死”,Lawrence 也把“经典洗车问题”拿出来点名。这波热度说明市场已经不只看模型分数,而是在盯真实工作流里的可控性、限额和回退策略。 原文:https://fixupx.com/bcherny/status/2044822408826380440
- 本轮最清楚的趋势,是模型升级已经从“榜单竞赛”切到“工作流竞赛”,谁能把能力、护栏、配额和可控性一起兜住,谁才吃得到真实采用。
不是热闹,是今天最该看的 6 个信号。
Boris 直说 Opus 4.7 比 4.6 更聪明、更 agentic,也更精确,但需要几天才能摸到正确用法;Theo 紧跟着吐槽新版系统提示把模型“管得太死”,Lawrence 也把“经典洗车问题”拿出来点名。这波热度说明市场已经不只看模型分数,而是在盯真实工作流里的可控性、限额和回退策略。 原文:https://fixupx.com/bcherny/status/2044822408826380440
Anthropic 发布与外部合著论文,研究大模型如何通过数据里的隐藏信号继承偏好甚至失配倾向。翻成中文,就是模型不只学“答案”,还可能把训练语料里那些不该传递的性格和偏向一并学进去,数据治理与可解释性因此更难回避。 原文:https://fixupx.com/AnthropicAI/status/2044493337835802948
Nick 展示了 Codex computer use 叠加 Mac 的 iPhone Mirror,已经能间接操作手机 App;中文圈的宝玉也快速跟进,强调 Codex 现在更像能干活的 Cowork,而不只是编辑器补全。这条线很关键,说明 coding agent 的竞争面已经从 IDE 内生成,扩到浏览器、桌面和跨设备执行。 原文:https://fixupx.com/NickADobos/status/2044885440092877028
按来源分组,保留有效信息,去掉废话和重复语气。
Anthropic 把“隐性学习”研究正式发到 Nature,重点在于大模型可能会从数据中的隐藏信号里继承偏好、行为倾向甚至失配特征。中文理解就是,安全问题不只在输出层和对齐层,训练数据本身也可能埋着会被模型悄悄带走的“暗线”。(@AnthropicAI,https://fixupx.com/AnthropicAI/status/2044493337835802948)
查看原帖本轮抓取里没有新的强信号原创帖冲上前排,但外圈几乎所有高讨论都在围着 Claude Code 和 Opus 4.7 转,说明产品本体虽然安静,生态热度并没降,反而开始进入“怎么在真实开发链路里落地”的深水区。
Boris 对 Opus 4.7 的判断很直接,这一代更聪明、更 agentic、更精确,但想吃满红利,得重新学习协作方式。这个信号很值钱,说明模型升级不是线性替换,而是连使用方法论都要跟着变。(@bcherny,https://fixupx.com/bcherny/status/2044822408826380440)
查看原帖Thariq 很快补了一条 Opus 4.7 的 rate limit 修复说明,意思是官方已经注意到新版本上线后额度和用量反馈异常的问题,并在快速止血。模型越强,配额、稳定性和产品体验就越会变成第一线问题。(@trq212,https://fixupx.com/trq212/status/2044869569555411383)
查看原帖Theo 的强烈吐槽点出了同一个现实,大家对 Opus 4.7 的争论已经不是“聪不聪明”,而是“系统提示会不会把能力锁死”。中文说白了,模型能力和产品护栏之间的张力,正在变成社区主战场。(@theo,https://fixupx.com/theo/status/2044857866323173732)
查看原帖Nick 这条最有信息量的地方,不只是“Codex 能操作 iPhone App”,而是 computer use 正在把 agent 从代码环境扩成整机执行环境。只要一层镜像或远控打通,很多没 API 的软件也开始进入自动化半径。(@NickADobos,https://fixupx.com/NickADobos/status/2044885440092877028)
查看原帖Carl 前一天那条 Skills 贴还在持续发酵,核心观点依旧成立,真正强的 skill 不是保存一段 prompt,而是把脚本、资料、模板和校验都装进目录。这正好对应今天大家讨论的另一面,模型升级越快,沉淀可复用工作流就越重要。(@carlvellotti,https://fixupx.com/carlvellotti/status/2044438621374321011)
查看原帖宝玉连续几条都在跟进 Codex 的 computer use、内置浏览器和评论式网页迭代。中文提炼就是,OpenAI 这次不是补一个小功能,而是在把编程助手往“会看屏幕、会点页面、会跑完整任务”的桌面代理推。(@dotey,https://fixupx.com/dotey/status/2044886304597344672)
查看原帖Yanhua 把 Opus 4.7 的重点更新拆得很清楚,视觉长边提升到 2576 像素、指令跟随更较真、新增 xhigh 档位、定价不变、Claude Code 增加 /ultrareview 与 auto mode 下放。对中文读者来说,这条的价值是把零散更新快速归拢成可执行清单。(@yanhua1010,https://fixupx.com/yanhua1010/status/2044793815157076364)
查看原帖他提到自己监控的几十个信息源里,有 11 个同时在报 Opus 4.7,这个观察很朴素,但很说明问题。真正的热度不是一条大号爆文,而是多个信源同一时间共振,说明这次版本更新确实打穿了开发者圈层。(@Khazix0918,https://fixupx.com/Khazix0918/status/2044820827531776449)
查看原帖他拿“经典洗车问题”调侃 Opus 4.7 阵亡,本质上是在提醒大家,模型越强,边界 case 越值得测。社区现在已经不满足于“演示很惊艳”,而是在集体做压力测试,看它会在哪些具体任务里掉链子。(@LawrenceW_Zen,https://fixupx.com/LawrenceW_Zen/status/2044827030378934721)
查看原帖- 本轮最清楚的趋势,是模型升级已经从“榜单竞赛”切到“工作流竞赛”,谁能把能力、护栏、配额和可控性一起兜住,谁才吃得到真实采用。
- 第二条线是 computer use 正在快速出圈,coding agent 不再只占编辑器,而是往浏览器、桌面和跨设备执行层扩,软件自动化边界又往外推了一截。