01
Claude Opus 4.8 成为今天的主线:更诚实的 agent 模型,而不是单纯刷榜
Anthropic 相关讨论集中在 Opus 4.8:@trq212 说它“像 benchmark 显示的那样聪明”,但更温暖、协作;@dotey 总结其核心变化是更愿意承认不确定、减少硬编,对长时间 agent 任务进度判断更真实。重要信号是模型发布叙事从“更强”转向“更适合长程协作”。(@trq212 / @dotey,原文:https://x.com/trq212/status/2060047996348432631;https://x.com/dotey/status/2060051148921323542)
02
Claude Code dynamic workflows 把 agent 扩展到“多代理并行 + 验证 + 挑刺”
随 Opus 4.8 一起出现的 dynamic workflows 是今天最值得盯的产品方向:大任务可自动拆解,派出几十到上百个 subagent 并行执行,再用另一批 agent 验证、质疑和收敛。@swyx 特别注意到“可在任务中途更新 Claude 指令,同时不破坏 prompt cache”的能力,这说明 agent runtime 正在从聊天框进化为可持续运行的编排系统。(@dotey / @swyx,原文:https://x.com/dotey/status/2060051148921323542;https://x.com/swyx/status/2060044644193624253)
03
评测社区没有统一唱赞歌:Opus 4.8 的真实能力仍要看成本、场景和可复现 benchmark
@theo 提到 CursorBench 中 Opus 4.8 更高效,但表现略低于 Opus 4.7、差距在误差范围内;@aakashgupta 注意到 Anthropic 发布图里保留了 GPT-5.5 在 terminal coding 行领先的结果;@scaling01 则记录 RuneScape Bench 中 GPT-5.5-xhigh 仍第一、Opus 4.8 Max 第四。今天的共识不是“谁赢了”,而是前沿模型评测必须回到具体工作流。(@theo / @aakashgupta / @scaling01,原文:https://x.com/theo/status/2060172445592789064;https://x.com/aakashgupta/status/2060047449847460039;https://x.com/scaling01/status/2060145438787829890)