不是让主 Agent 变得更强,而是让主 Agent 更克制。多 Agent 协作正在从可选技巧变成默认架构,用极少量顶级推理换来接近顶配质量、更高吞吐和大幅成本下降。
这两周我们在 auto-coder.chat 上做了一件看起来有点反直觉的事:
不是让主 Agent 变得更强,而是让主 Agent 更克制。
具体做法是新增了一条 Rule:
Opus4.6 或 GPT5.4。doubao-seed-2.0-pro。听起来像是给顶级模型"降权",但结果恰恰说明: 多 Agent 协作正在从"可选技巧",变成"默认架构"。
过去很多团队做 AI 编程有一个默认思路: "既然最强模型最聪明,那就让它从头到尾都做。"
这个思路没错,但成本高,吞吐也有限。尤其当任务稍微复杂一点,主 Agent 既要思考又要执行,还要处理中间细节,很容易把高价值推理能力消耗在低价值操作上。
我们的目标很简单:
你可以把它理解成一个团队协作模型:
在这个模型里,Opus4.6 不再承担全部劳动,而是像"稀土材料":
关键、稀缺、昂贵,但只用在最该用的地方。
为了避免"体感优化",我们固定了一套验证流程:
GPT5.4 ultra high 执行 Review。Opus4.6doubao-seed-2.0-proOpus/GPT 主 Agent + doubao Subagent(本次新 Rule)这一步很关键,因为很多"看起来更快"的方案,本质是把质量问题延迟到了后面。 我们希望每个需求都在同一套审查标准下被衡量,而不是只看任务是否"跑完"。
到目前为止,这套主从分层架构给出了非常清晰的结果:
Opus4.6",只有轻微效果损耗。doubao-seed-2.0-pro",获得了巨大质量提升。如果用一句话总结就是:
我们用极少量顶级推理,换来了接近顶配质量 + 明显更高吞吐 + 大幅成本下降。
这意味着什么?
意味着这不再是"大厂才用得起"的 AI 编程方式。 对普通团队、独立开发者、外包团队来说,这个成本带已经进入"可日常化使用"的区间。

你现在看到的这张图,就是一次真实需求从起点开始的工作截面。 它不仅展示了主 Agent 的调度过程,还给了我们三条非常关键的"可观察证据":
code_model 是主模型配置(我们用 Opus4.6),model 是 Subagent 模型配置(我们用 doubao-seed-2.0-pro)。
也就是说,这里并不是"多开两个线程"这么简单,而是"强模型做判断,性价比模型做并行执行"的工程化协作。 继续看下一张图,你会发现这种并行不是一次性的技巧,而是可复用的工作模式:

这次主 Agent 一次性启动了 3 个并行 Subagent,覆盖了三类不同任务:
date)。这说明主 Agent 不只是"会拆任务",而是已经具备"按任务类型选择执行器"的调度能力:信息探索、结构分析、命令执行可以同时推进。 对真实开发流程来说,这种混合并行会显著减少等待链路,让结果更快收敛,也更不容易漏项。

再看这一张图,流程已经从"探索阶段并行"进入了"执行阶段并行":
这一步非常关键:并行不是为了"跑得快就结束",而是"快产出 + 快验证"组合。 也正因为有这层回收与验证,整个流程才能在提速的同时维持稳定质量。

这张图展示了流程的最后一公里:主 Agent 将执行结果汇总为结构化交付清单,并明确给出核验结论(checks passed)。
从画面里可以看到,它会把关键结果逐项列清:
这意味着 Subagent 架构的价值不只在"做得快",还在"可审计": 每一步都有证据、每个产物可追溯,主 Agent 最终给出的不是一句"完成了",而是一份可被人类快速复核的交付摘要。

到这里,流程还没有结束。
这张图体现的是"交付后验证"环节:主 Agent 在总结完成后,继续调度 subagent 启动当前项目的开发服务,并返回可访问地址(如 http://localhost:3000)与运行状态。
这一步把"代码产出"延伸为"可运行结果确认":
因此整条链路是完整的: 并行探索 → 并行执行 → 回收核验 → 结构化总结 → 运行态验证。 这也是 Subagent 模式相较单 Agent 串行流程最有工程价值的地方。

最后这张图把"运行态验证"再往前推了一步: 不仅服务可启动,而且目标文章已经在博客列表中被正确渲染和展示。
这意味着验证从"技术成功"走向"业务可见":
到这里,这次需求就形成了一个真正可复用的端到端模板: 需求输入 → 主 Agent 拆分 → Subagent 并行执行 → 自动核验 → 页面可见性确认。

而且这套模式在"线上修错"场景里同样稳定。 这张图里,主 Agent 发现页面标题异常后,没有进入低效试错,而是快速发起 3 次 subagent 调用完成闭环:

修复结果可以直接在页面中看到:标题与内容恢复正确,渲染正常。 这就是 Subagent 架构的另一个现实价值:把故障修复从"十几轮对话反复试探"压缩成"几次有分工的调用"。
以这次为例,主模型通过 3 次 subagent 调用就解决了问题。 如果不采用 subagent,通常会走成串行试错,速度更慢,调用轮次可能上升到十几轮,最终带来更高时间成本和模型费用。
很多人期待"模型价格总会降下来",到时候就不需要这些分层技巧了。 但这个假设忽略了一个基本现实:好模型必然是贵的,模型价格不会无限下降。
原因很简单——推理能力越强的模型,训练和推理成本越高,这是底层算力决定的经济规律。即使每一代模型的性价比在提升,顶级模型和中等模型之间永远存在显著价差。就像芯片制程一直在进步,但最先进的制程永远是最贵的。
所以真正的问题从来不是"等模型便宜",而是: 如何在当前价格结构下,用最少的顶级推理换取最大的工程产出?
Subagent 正是这个问题的答案。它不是替代,而是分层:
这三层一旦打通,带来的不只是成本优化,还有速度的显著提升——因为 Subagent 天然支持单任务内部并行,多个子任务同时推进,总耗时被压缩到最长子任务的长度,而不是所有子任务的累加。
AI 编程就会从"单体 Agent 的偶发高光",走向"工程化的稳定产能"。
而这,就是 Subagent 时代真正要来的原因。

开启方式非常简单,三步搞定:
subagents Rule。[[auto-coder.chat:auto-coder.chat