Claude Code · Agent Runtime 工程化分析

<blockquote> <p>六层叠层 × 四贯穿控件 × 五级压缩梯子——一次把骨架、阈值与算法都讲清楚</p> </blockquote> <h2>1. 全景：六层叠层与四贯穿控件</h2> <p>Claude Code 的 Agent Runtime 由<strong>六个水平堆叠的层</strong>与<strong>四个垂直贯穿的控件</strong>构成。每一层独立回答一个工程问题，每一个控件独立解决一类失效模式。把它们一次性铺在一张图上：</p> <p><img width="100%" src="http://weizn.net/wp-content/uploads/2026/05/post-1079-6a003d3ee9f44.png" /></p> <p><strong>六层职责</strong>：</p> <table> <thead> <tr> <th>层级</th> <th>回答的工程问题</th> <th>主要载体</th> </tr> </thead> <tbody> <tr> <td>① 入口面</td> <td>请求从哪里进、如何归一化</td> <td>用户提示、斜杠指令、会话恢复、SDK Headless 调用</td> </tr> <tr> <td>② 编排平面</td> <td>谁拆解、谁汇总</td> <td>协调者 Agent、Plan Mode、Worktree、Todo / Brief</td> </tr> <tr> <td>③ Runtime 循环</td> <td>一轮"思考—调用—反思"如何走完</td> <td>流式采样、流式工具调度、压缩决策、停止钩子</td> </tr> <tr> <td>④ Task 底座</td> <td>真正跑起来的执行体长什么样</td> <td>六种 Task 形态、统一生命周期工具</td> </tr> <tr> <td>⑤ 工具能力面</td> <td>Agent 能做什么</td> <td>42 个内建工具六分簇、外部 MCP / Skill 扩展</td> </tr> <tr> <td>⑥ 记忆与持久化</td> <td>跑完之后留下什么</td> <td>个人记忆、团队记忆、Scratchpad、索引与选择器</td> </tr> </tbody> </table> <p><strong>四贯穿控件</strong>：</p> <table> <thead> <tr> <th>控件</th> <th>解决的失效</th> <th>关键机制</th> </tr> </thead> <tbody> <tr> <td>AbortController</td> <td>中断信号沿调用栈漂失</td> <td>主会话/子任务/单次工具各持一个，沿委派边逐级下沉</td> </tr> <tr> <td>StopHooks</td> <td>停止事件无可编程边界</td> <td>模型 turn 结束 / tool 结束 / 阶段边界三类停止点皆可挂钩</td> </tr> <tr> <td>TokenBudget</td> <td>单一硬上限触发反复横跳</td> <td>三道阀分账：硬窗口 / 工作预算 / 系统预留</td> </tr> <tr> <td>CleanupRegistry</td> <td>PTY、文件锁、临时连接的尾巴失收</td> <td>幂等登记、有序清理、容错执行</td> </tr> </tbody> </table> <p>后续章节按"先循环、再压缩、再执行体、再调度、再记忆、再控件、再哲学"的顺序逐层下钻。每一节都尽量给出可被工程师认账的阈值、算法步骤或源码事实。</p> <hr /> <h2>2. Runtime Loop：while-true 内的 12 个事件</h2> <p>很多 Agent 框架把主循环描述成 <code>think → act → observe</code> 三拍。这种说法把"流式""并发""中断""压缩""停顿钩子"全部隐去。Claude Code 的真实主循环是一个<strong>单进程、单 <code>while (true)</code>、单 <code>async generator</code></strong> 的事件序列——每一拍都直接对应若干可观察的 <code>yield</code> 与 <code>state</code> 变更。</p> <p><img width="100%" src="http://weizn.net/wp-content/uploads/2026/05/post-1079-6a003d3f01fe8.png" /></p> <p><strong>图释</strong>：左侧把一轮 <code>while(true)</code> 内 12 个事件按发生顺序竖向展开，每个事件含编号、事件名（含真实 API 标识如 <code>streamingToolExecutor</code> / <code>microcompact_boundary</code>）、与一行作用注。事件 4 (Reactive Compaction)、10 (AutoCompact 决策)、11 (StopHooks 仲裁) 标注为"条件触发 / 仲裁"分支；事件 8 (abort drain) 标注为"兜底"——这是取消信号到达时把 in-flight 工具补完成 tool_result、避免 orphan tool_use 的关键不变量。事件 12 通过左侧弧形箭头"下一轮迭代"折回事件 1，构成单一闭环。右侧表列出跨轮携带的 9 个 State 字段——这是把"上一轮发生了什么"压成下一轮可读快照的最小集。底部金句"Runtime 不是一次推理 · 是一台节拍器"概括整章。</p> <h3>2.1 跨轮携带的 State</h3> <p>主循环在每次迭代开头都会从一个 <code>State</code> 对象 destructure 取值，迭代结尾以"整体替换"的方式提交一次新 <code>state</code>。跨轮携带的关键字段如下：</p> <table> <thead> <tr> <th>字段</th> <th>含义</th> <th>关键作用</th> </tr> </thead> <tbody> <tr> <td><code>messages</code></td> <td>当前会话消息序列</td> <td>压缩与摘要替换的对象</td> </tr> <tr> <td><code>toolUseContext</code></td> <td>工具调用上下文，含 abortController</td> <td>取消信号挂载点</td> </tr> <tr> <td><code>autoCompactTracking</code></td> <td>含 <code>compacted / turnCounter / turnId / consecutiveFailures</code></td> <td>触发压缩判定 + 熔断</td> </tr> <tr> <td><code>maxOutputTokensRecoveryCount</code></td> <td>输出 token 截断的恢复次数</td> <td>防止反复触发 max_output_tokens 错误</td> </tr> <tr> <td><code>hasAttemptedReactiveCompact</code></td> <td>当前轮是否已经反应式压缩过</td> <td>避免同一轮重复压</td> </tr> <tr> <td><code>pendingToolUseSummary</code></td> <td>待结算的工具结果摘要 promise</td> <td>流式工具的异步收尾</td> </tr> <tr> <td><code>stopHookActive</code></td> <td>停止钩子是否已激活</td> <td>区分"自然停止"与"钩子干预后再循环"</td> </tr> <tr> <td><code>turnCount</code></td> <td>累计回合数</td> <td>配合 <code>maxTurns</code> 做硬上限</td> </tr> <tr> <td><code>transition</code></td> <td>上一轮为何继续</td> <td>调试与回放用</td> </tr> </tbody> </table> <p>这九个字段把"上一轮发生了什么"压缩成一份可被下一轮读懂的最小快照。任何跨轮决策（是否压缩、是否走反应式路径、是否再退一步重试）都从这份快照出发。</p> <h3>2.2 一轮迭代的 12 个事件</h3> <p>把 <code>while (true)</code> 内部一轮真实执行展开，按发生顺序如下。每一项都标注了它对 state 的写入或外部副作用。</p> <ol> <li><strong>入轮 destructure</strong>：从 <code>state</code> 取出全部字段，绑定为本轮局部变量。</li> <li><strong>请求开始事件</strong>：向上层 yield <code class="kb-btn"> type: 'stream_request_start' </code>，让 UI / SDK 端可以打开一个新 turn 边界。</li> <li><strong>Microcompact 预清扫</strong>：调用微压缩入口。如果命中 cached-MC 路径，仅按 <code>tool_use_id</code> 在 API 层挂上 <code>cache_edits</code> 删除指令，本地 <code>messages</code> 内容<strong>完全不变</strong>；如果命中 time-based 路径，则把超过时间阈值的旧 <code>tool_result</code> 内容替换为字符串 <code>[Old tool result content cleared]</code>。两种路径都不撕缓存前缀。</li> <li><strong>Reactive Compaction（条件触发）</strong>：当上一轮命中过 <code>prompt-too-long</code>（413）且未完成反应式压缩时进入。yield 一个 boundary message，再 yield <code>buildPostCompactMessages</code> 注入的恢复消息，本轮 <code>messagesForQuery</code> 被替换。</li> <li><strong>流式采样</strong>：进入内层 <code>attemptWithFallback</code> 循环，调用 <code>callModel</code>，把 <code>toolUseContext.abortController.signal</code> 直接挂到流上。模型一边生成一边产出 <code>tool_use</code> 块——<strong>不必等模型把整段话说完</strong>。</li> <li><strong>流式工具派发</strong>：解析到 <code>tool_use</code> 段的同一时刻，工具被交给 <code>streamingToolExecutor</code> 并发执行。多个工具间的执行顺序由 executor 编排，结果按完成时间逐个回灌。</li> <li><strong>Microcompact 边界标记</strong>：一旦微压缩在本轮内确实清掉了若干 tool_result，yield 一条 <code>microcompact_boundary</code> 消息，让 UI / 回放系统知道哪一轮发生过隐式裁剪。</li> <li><strong>取消处理</strong>：每次进入下一阶段前都检查 <code>abortController.signal.aborted</code>。一旦置位，主循环不立刻退出，而是先 <code>drain</code> <code>streamingToolExecutor.getRemainingResults()</code>——把所有 in-flight 的工具结果都补成 <code>tool_result</code> 块。这一步保证不会留下任何 <code>tool_use</code> 没有匹配 <code>tool_result</code> 的 orphan，否则下次提交 API 会直接被拒。</li> <li><strong>用户中断标记</strong>：若取消原因不是 <code>interrupt</code>，yield 一条 <code>user_interruption</code> 消息，避免静默消失。</li> <li><strong>AutoCompact 决策</strong>：到本轮尾声，调用 <code>autoCompactIfNeeded</code>。如果触发，先尝试 SessionMemory 路径；失败再走 Full Compact。压缩成功则 yield 出新的 PostCompact 消息序列并整体替换 <code>state.messages</code>，把 <code>autoCompactTracking.compacted</code> 置 true、<code>turnCounter</code> 归零；失败则递增 <code>consecutiveFailures</code> 并在达到 3 次时熔断（详细阈值见 §3）。</li> <li><strong>StopHooks 仲裁</strong>：把"本轮已完成"的事实交给 <code>handleStopHooks</code>。三种返回：(a) <code>preventContinuation</code> —— 直接退出主循环，turn 结束；(b) <code>blockingErrors</code> —— 把错误注入下一轮上下文，标记 <code>stopHookActive=true</code> 后回到下一轮；(c) 通过 —— 自然继续。</li> <li><strong>状态提交</strong>：以"整对象重写"的方式生成新 <code>state</code>，避免 9 个字段散点赋值产生不一致。回到事件 1。</li> </ol> <h3>2.3 事件流图</h3> <pre><code class="language-mermaid">graph TD S[入轮 destructure] --> A[yield stream_request_start] A --> B[Microcompact 预清扫] B --> R{Reactive 条件?} R -- 命中 --> RC[反应式压缩 · 替换 messages] R -- 未命中 --> M[流式采样 callModel] RC --> M M --> T[流式工具派发 · 并发执行] T --> X{命中微压缩?} X -- 是 --> XB[yield microcompact_boundary] X -- 否 --> C XB --> C{abort 置位?} C -- 是 --> D[drain 剩余工具结果] D --> U[yield user_interruption] U --> AC C -- 否 --> AC{AutoCompact 触发?} AC -- 是 --> CP[SessionMemory → Full → PostCompact 注入] AC -- 否 --> H CP --> H[StopHooks 仲裁] H --> HD{preventContinuation?} HD -- 是 --> END[退出主循环 · turn 结束] HD -- 否 --> NS[整体替换 state] --> S</code></pre> <h3>2.4 两个容易被低估的设计决策</h3> <p><strong>流式工具并发</strong>。多数框架选择"等模型说完再批处理工具"，理由是更可控。代价是每轮多等一次完整生成。Claude Code 选择在 <code>tool_use</code> 段刚被解析出来的同一时刻就交给 executor 并发跑，节奏更接近人的"边想边做"。代价是必须把"取消时 drain 掉所有 in-flight 工具"做对，否则 orphan tool_use 会让后续 API 调用直接 400。事件 8 就是这条不变量的兜底。</p> <p><strong>TokenBudget 不是单根硬上限</strong>。如果只有一根线"到了就摘要"，就只能在阈值附近反复横跳。Claude Code 把预算拆三道——硬窗口、工作预算、系统预留，让"还能不能动手"和"还能不能想下一步"分开决策。这正是 §3 五级压缩梯子能按侵入性分级的前提：没有三道阀，就没有可分级的空间。</p> <hr /> <h2>3. 上下文压缩：五级梯子与每一级的真实算法</h2> <p><img width="100%" src="http://weizn.net/wp-content/uploads/2026/05/post-1079-6a003d3f0fabe.png" /></p> <p><strong>图释</strong>：图自左向右依侵入性递增展开五级阶梯——① <strong>SessionMemory Compaction</strong>（IO 级零损失，不撕缓存，依赖后台 agent 已抽取好的会话摘要文件）→ ② <strong>Reactive Compaction</strong>（事件驱动局部裁剪，被 413 prompt-too-long 触发，最小化扰动）→ ③ <strong>Microcompact</strong>（白名单 8 类工具的旧 tool_result 清扫，双路径：cached MC 用 cache_edits API 不撕缓存 / time-based 把过期 tool_result 内容替换为占位符）→ ④ <strong>Full Compaction</strong>（forked agent 摘要 + cache 重建 + PostCompact 50K 注入预算）→ ⑤ <strong>Context Collapse</strong>（折叠到最小骨架 · 任务意图 + 活跃 Task id + 关键系统提示 · 兜底）。AutoCompact 入口默认走 ① → ④ 的链路，先尝试最轻一级、扛不住才抬升；Reactive 与 Collapse 由独立特性门控触发，与 AutoCompact 互斥，避免两条路径同时改写同一份历史。</p> <p>上下文窗口是刚性资源，但它不是非黑即白的"够 / 不够"。Claude Code 在窗口管理上做的关键决策只有一句话——<strong>把"一次摘要"换成"一条阶梯"</strong>：先尝试侵入性最小的一级，扛不住再逐级抬升，每一级都明确知道自己在牺牲什么。</p> <p>下面把这条阶梯彻底拆开，从触发数学一路推到压缩动作再到事后清理。</p> <h3>3.1 触发数学：effective window 与三道阈值</h3> <p>所有压缩判定都基于一个派生量 <strong>effective context window</strong>，而不是模型标称的窗口大小：</p> <pre><code>effectiveWindow = contextWindow(model) − reservedForSummary reservedForSummary = min(modelMaxOutput, 20_000)</code></pre> <p>换言之，每个会话<strong>先扣掉 20K token 给摘要请求自己</strong>——因为 Full Compact 触发时还要让模型生成一份新摘要，这部分输出空间必须留出来。<code>CLAUDE_CODE_AUTO_COMPACT_WINDOW</code> 环境变量可在测试时把 <code>contextWindow</code> 进一步收紧。</p> <p>在 effective window 之上，再划三道阈值，每道有自己的缓冲常量：</p> <table> <thead> <tr> <th>信号</th> <th>公式</th> <th>缓冲量</th> <th>用途</th> </tr> </thead> <tbody> <tr> <td>AutoCompact 触发线</td> <td><code>effectiveWindow − 13_000</code></td> <td><code>AUTOCOMPACT_BUFFER = 13K</code></td> <td>主动压缩起点，对应"还有 ≤13K 余量"时进梯子</td> </tr> <tr> <td>Warning / Error 信号线</td> <td><code>effectiveWindow − 20_000</code></td> <td><code>WARNING/ERROR_BUFFER = 20K</code></td> <td>UI 提示用户上下文吃紧</td> </tr> <tr> <td>阻塞硬上限</td> <td><code>effectiveWindow − 3_000</code></td> <td><code>MANUAL_COMPACT_BUFFER = 3K</code></td> <td>即将彻底没空间，新请求被拒</td> </tr> </tbody> </table> <p><code>tokenUsage</code> 由 <code>tokenCountWithEstimation(messages)</code> 估算得到（含 <code>tool_result</code>、image=2000 token、document=2000 token、thinking 文本，最后整体 ×4/3 保守填充）。每一轮迭代尾部都会用同一份 <code>tokenUsage</code> 与三条线比对，决定本轮是否进入梯子。</p> <p><strong>熔断</strong>：连续 3 次自动压缩失败后，整会话的 autoCompact 通道被切断。这条电路保护源于一份生产数据——曾有 1279 个会话在不可恢复超长的状态下反复尝试压缩（最高单会话 3272 次），每天浪费约 25 万次 API 调用。</p> <h3>3.2 五级梯子：触发 → 算法 → 影响</h3> <p>触发线一旦被越过，不会直接走"摘要全部历史"。系统按下表自下而上逐级尝试，每一级都比上一级多放弃一点细节、但比粗暴摘要少损失很多上下文：</p> <table> <thead> <tr> <th>级别</th> <th>触发</th> <th>算法核心</th> <th>对 messages 的影响</th> <th>对 prompt cache 的影响</th> </tr> </thead> <tbody> <tr> <td>① <strong>SessionMemory Compaction</strong></td> <td>AutoCompact 触发后<strong>优先尝试</strong></td> <td>从 <code>lastSummarizedMessageId</code> 之后保留消息，向前扩张直到 <code>tokens ≥ minTokens(10K)</code> 且 <code>文本块消息数 ≥ 5</code>，硬顶 <code>maxTokens=40K</code>；展开过程严守 <code>tool_use ↔ tool_result</code> 配对、<code>thinking</code> 块与同 message-id 不切断</td> <td>把已保留段落写入摘要 + 头部插入 boundary marker；后段保留原样</td> <td>不撕缓存前缀</td> </tr> <tr> <td>② <strong>Reactive Compaction</strong></td> <td>API 返回 <code>prompt-too-long</code>(413) 后被动触发，特性门控开启时启用</td> <td>局部裁剪触发那次请求里最长的 tool_result 或最旧的几条消息，再重新提交</td> <td>局部替换，最小化扰动</td> <td>仅打断局部 cache，不全失效</td> </tr> <tr> <td>③ <strong>Microcompact</strong></td> <td>Token 预算预警 / cache 容量预警 / 时间间隔过长</td> <td><strong>双路径</strong>：(a) <code>cachedMicrocompact</code> —— 不动本地消息，向 API 发送 <code>cache_edits</code> 指令删除已过期的 <code>tool_result</code>；(b) <code>timeBasedMicrocompact</code> —— 当距离上一条 assistant 消息 gap > 阈值时，把旧 <code>tool_result</code> 内容替换为字符串 <code>[Old tool result content cleared]</code>，至少保留最近 1 条</td> <td>仅清白名单 8 类工具的旧 tool_result：FileRead / FileEdit / FileWrite / Grep / Glob / Shell / WebSearch / WebFetch；其它工具结果不动</td> <td>(a) 不撕缓存；(b) 因内容已变，下次自然冷启动</td> </tr> <tr> <td>④ <strong>Full Compaction</strong></td> <td>SessionMemory 不可用 / 失败 / 用户敲 <code>/compact</code></td> <td>起一个 forked agent 读完当前所有消息（先剥图：<code>image</code> / <code>document</code> 替换为 <code>[image]</code> / <code>[document]</code> 占位），生成一段摘要，把摘要 + boundary marker + 必要附件 + 计划文件作为新的 <code>messages</code> 头部；最多重试 2 次</td> <td>历史消息整体被替换；保留最近一段已切片的消息以维持 API 不变量</td> <td>整段 cache 失效，必须 notify cache-break-detection 把这次掉缓存计为合法事件而非异常</td> </tr> <tr> <td>⑤ <strong>Context Collapse</strong></td> <td>特性门控打开且 90% 触发 commit-start / 95% 阻塞 spawn</td> <td>折叠到最小骨架：仅保留任务意图、当前活跃 Task 的 id 指针、关键系统提示</td> <td>几乎所有中间过程被舍弃</td> <td>整段 cache 失效，但保留任务级 id 链路供后续重建</td> </tr> </tbody> </table> <p>几条容易被忽略但很关键的不变量：</p> <ul> <li><strong>梯子并非每一级都会跑一遍</strong>。AutoCompact 入口先 try 一次 SessionMemory，失败才走 Full；Reactive 与 Context Collapse 则由各自门控独立触发，与 AutoCompact 互斥（防止两条路径同时改写同一份历史）。</li> <li><strong>SessionMemory 路径不调模型</strong>。它依赖另一个后台 agent 已经异步抽取好的会话摘要文件，主循环只是"取过来直接当 PostCompact 用"，所以代价是 IO 级而非 API 级——这正是它能放在梯子最底层、被默认优先尝试的原因。</li> <li><strong>Microcompact 的两条路径互斥</strong>。time-based 一旦命中就 short-circuit 返回，因为它已经把缓存搞冷了，再让 cached-MC 试图编辑缓存只会出错。</li> </ul> <h3>3.3 PostCompact 注入：摘要之后还要塞回什么</h3> <p>全量压缩之后并不是"只剩一段摘要"。系统会按一份带预算的清单把必要上下文重新注入：</p> <table> <thead> <tr> <th>注入项</th> <th>预算</th> <th>说明</th> </tr> </thead> <tbody> <tr> <td>摘要消息本身</td> <td>—</td> <td>由 forked agent 生成的对话摘要</td> </tr> <tr> <td>计划附件（Plan）</td> <td>—</td> <td>当前 Plan 文件全文（如有）</td> </tr> <tr> <td>重要文件回填</td> <td>总 ≤ 50K，单文件 ≤ 5K，最多 5 个</td> <td>摘要前后曾被读取的高价值文件，按规则截取</td> </tr> <tr> <td>Skills 回填</td> <td>总 ≤ 25K，单 skill ≤ 5K</td> <td>已被调用过的 skill 描述，按 token 预算截顶</td> </tr> <tr> <td>MCP / 工具列表增量</td> <td>—</td> <td>如果工具集有变化则注入 delta</td> </tr> </tbody> </table> <p>这份"重新注入"是 Claude Code 让用户在 <code>/compact</code> 之后仍能"接着干"的关键。常见错误实现是只保留摘要——结果模型立刻把已经读过的关键文件再读一遍，开销翻倍。</p> <h3>3.4 PostCompact 的 9 项幂等清理</h3> <p>压缩成功<strong>不只是替换了 messages</strong>。它还会触发一组明确登记的清理动作，每一项都是"压缩对运行时其它状态的副作用必须被显式归零"——否则下一轮 cache 命中、权限检查、记忆加载都会指向错的对象：</p> <ol> <li><code>resetMicrocompactState</code> —— 清掉 cached MC 已注册的 tool_id 表与 pending cache_edits（否则下轮会试图编辑 server 上已不存在的 tool）</li> <li><code>resetContextCollapse</code>（仅主线程压缩时）—— 折叠状态归零</li> <li><code>getUserContext.cache.clear()</code> —— 清外层用户上下文记忆缓存</li> <li><code>resetGetMemoryFilesCache('compact')</code> —— 清内层 CLAUDE.md / MEMORY.md 加载缓存，重新触发 InstructionsLoaded 钩子</li> <li><code>clearSystemPromptSections</code> —— 系统提示分段清零，避免 stale section 漏出</li> <li><code>clearClassifierApprovals</code> —— 清掉之前批过的分类器 yolo 审批</li> <li><code>clearSpeculativeChecks</code> —— Bash 投机权限检查清零</li> <li><code>clearBetaTracingState</code> —— Beta tracing 状态清零</li> <li><code>clearSessionMessagesCache</code> —— 会话消息缓存清零</li> </ol> <p>同时调用 <code>notifyCompaction</code> / <code>notifyCacheDeletion</code> 主动告诉 prompt-cache-break 检测器："这次缓存掉是预期的，别误报为异常"；调用 <code>setLastSummarizedMessageId(undefined)</code> 重置摘要指针——因为 Full Compact 替换了所有消息 UUID，任何指向旧 UUID 的指针都已经失效；调用 <code>markPostCompaction()</code> 让上层标记"刚刚压缩过"，便于 UI 给用户提示。</p> <p>这九项清理动作全部要求<strong>幂等</strong>：同一动作多次调用结果一致；个别清理失败不阻塞剩余动作。这一条把整个 Runtime 的失败语义从"靠 GC 赌人品"改成了"可幂等、可重放"。</p> <h3>3.5 子 Agent 中调压缩的特殊处理</h3> <p>主线程与子 Agent 跑在同一进程里，模块级状态（context-collapse store / memory file cache / userContext cache）是共享的。因此 <code>runPostCompactCleanup</code> 会先按 <code>querySource</code> 区分调用源：</p> <ul> <li>主线程压缩 → 9 项全跑</li> <li>子 Agent（前缀 <code>agent:*</code>）压缩 → 只跑前两项；后面 7 项被故意跳过，避免子 Agent 自己 compact 一下就把主线程的状态清干净</li> </ul> <p>这条"按调用源裁剪清理范围"的规则是多 Agent 共享进程不可绕开的纪律。</p> <hr /> <h2>4. Task 一等公民：六种形态共享一个契约</h2> <p>在 Claude Code 里，"执行体"不叫 Agent，叫 <strong>Task</strong>。这不是命名偏好——这是把"什么样的执行体可以被派出去做事"这件事抽象到协议层的关键决定。</p> <p><img width="100%" src="http://weizn.net/wp-content/uploads/2026/05/post-1079-6a003d3f1f854.png" /></p> <p><strong>图释</strong>：图顶部一条横贯长条标识"统一 Task 契约 · id · 状态 · 工具集 · 输出基板 · 权限 · 取消链"——这是<strong>形态六变下唯一不变的协议层</strong>。下方六张卡并排展示六种执行体（主会话 <code>s</code> / 本地 Worker <code>a</code> / 远端 Agent <code>r</code> / 本地 Shell <code>sh</code> / 进程内队友 <code>t</code> / Dream <code>d</code>），每张卡内同时给出<strong>形态、可见工具集、通讯方式、关键说明</strong>四条事实，可以一眼看到差异点（例如本地 Worker 工具集被收紧到 <code>ASYNC_AGENT_ALLOWED</code> 严格子集、Dream 只读、Shell 走 detached PTY）。再下方三条横排底板——公共生命周期状态机、共享任务输出基板、权限与取消平面——是六种形态共用的下层基础设施。</p> <h3>4.1 共享契约的五个组件</h3> <p>不论形态如何，每一个 Task 都满足下面五件事：</p> <ol> <li><strong>唯一 id</strong>：按形态前缀编码——<code>s</code> 主会话、<code>a</code> 本地 Worker、<code>r</code> 远端 Agent、<code>sh</code> 本地 Shell、<code>t</code> 进程内队友、<code>d</code> Dream/异步。光看 id 就能知道它在哪种执行环境里跑。</li> <li><strong>可见工具子集</strong>：不是 42 个全开。每种形态都有自己的允许集（详见 §5.2）。</li> <li><strong>任务输出基板</strong>：每个 Task 都把自己的 transcript 软链落盘，活动追踪 / token 用量 / 最近 5 条活动环形缓冲挂在同一份基板上。流式输出<strong>直接进基板</strong>，协调者只在汇总时去读它，不承担实时转发。</li> <li><strong>权限声明</strong>：permission mode 三档——<code>default</code> / <code>acceptEdits</code> / <code>bypass</code>。权限不是工具自己问，而是 Task 这一层统一拍板。</li> <li><strong>取消链节点</strong>：每个 Task 持有自己的 <code>AbortController</code>，作为取消树的一个内部节点。取消信号沿委派边逐级下沉，子 Task 的取消不会向上爆炸，父 Task 的取消必然到达每个孩子。</li> </ol> <h3>4.2 公共生命周期</h3> <p>所有 Task 走同一个状态机——<code>Created → Queued → Running → Producing Output → Stopped / Completed / Failed</code>。这就让一组通用工具（<code>TaskCreate / TaskGet / TaskList / TaskOutput / TaskUpdate / TaskStop</code>）能管所有形态，而不需要为每种形态各写一套。</p> <h3>4.3 六种形态的差异</h3> <table> <thead> <tr> <th>形态</th> <th>id 前缀</th> <th>上下文</th> <th>关键能力差异</th> </tr> </thead> <tbody> <tr> <td>主会话</td> <td><code>s</code></td> <td>完整</td> <td>与用户直接对话，可被 Ctrl-B 后台化</td> </tr> <tr> <td>本地 Worker</td> <td><code>a</code></td> <td>上下文隔离的 forked agent</td> <td>工具只允许 ASYNC_AGENT_ALLOWED 集合；不能再派 Worker</td> </tr> <tr> <td>远端 Agent</td> <td><code>r</code></td> <td>异机隔离</td> <td>通过 Bridge 长连接 + RemoteTrigger 触发，结果流式回传</td> </tr> <tr> <td>本地 Shell</td> <td><code>sh</code></td> <td>一个 detached PTY</td> <td>长命令托管；stdout 缓冲到任务输出基板</td> </tr> <tr> <td>进程内队友</td> <td><code>t</code></td> <td>同会话、对等</td> <td>通过文件邮箱互相投递；可见工具集是 Worker + 5 个任务/通讯工具</td> </tr> <tr> <td>Dream / 异步</td> <td><code>d</code></td> <td>只读</td> <td>用户空闲时复盘历史，把可沉淀经验写回记忆底座</td> </tr> </tbody> </table> <p>一个直接推论：<strong>协调者把任务从本地"搬到远端"几乎不用改任何上层代码</strong>——id 前缀从 <code>a</code> 换成 <code>r</code>，AgentTool / SendMessage / TaskStop 三件工具的语义不变，结果回流仍然是 <code><task-notification></code> XML（见 §5.3）。这是"形态六变、契约不变"在工程上的具体兑现。</p> <h3>4.4 子 Agent 的 runtime loop 与主线程共享同一台节拍器</h3> <p>子 Agent（本地 Worker / 进程内队友）并不是另跑一套循环。它复用 §2 描述的同一个 <code>query()</code> async generator——只是 destructure 出来的 State、绑定的 toolUseContext、可见工具子集不同。这意味着：</p> <ul> <li>子 Agent 内部一样有 12 个事件序列，一样有 abortController drain 不变量，一样会触发 AutoCompact 与 Microcompact。</li> <li>子 Agent 触发的 PostCompact 清理走"裁剪版"——只清掉自己的 microcompact 状态与 contextCollapse 状态，不能清主线程的 userContext / memoryFiles / systemPromptSections（详见 §3.5）。</li> <li>子 Agent 的 abortController 是父 Task abortController 树上的一个节点；父 Task 取消会沿这条边自动下沉。</li> </ul> <p>换句话说，<strong>多 Agent 系统不是多套循环并行跑，而是同一台 runtime 在不同 State 实例上多跑几次</strong>。这是 Claude Code 多 Agent 系统能保持工程稳定性的一个根因——任何对主循环的改进都会原子地下发到所有子 Agent。</p> <hr /> <h2>5. 多 Agent 调度：协调者、Worker、三条通道</h2> <p>多 Agent 系统的瓶颈从来不是"能开多少个 Agent"，而是"Agent 之间的边界能不能守住"。Claude Code 的边界设计有三件事最值得拆开看：协调者的不对称、工具白名单的硬约束、三条通讯通道的语义分工。</p> <p><img width="100%" src="http://weizn.net/wp-content/uploads/2026/05/post-1079-6a003d3f2c385.png" /></p> <p><strong>图释</strong>：协调者（标注 <code>system role: orchestrator</code> · 红线"不直接改文件、不执行脚本"）位于顶层。下方一排四种 Worker 形态（本地 Worker <code>a...001</code> / <code>a...002</code>、进程内队友 <code>t...003</code>、远端 Agent <code>r...004</code>）通过四件事与它互动：(a) <strong>任务委派</strong>——黑色实线，AgentTool / TaskCreate；(b) <strong>结果回流</strong>——绿色虚线，TaskOutput；(c) <strong>对等消息</strong>——红色虚线，文件系统邮箱（路径 <code>~/.claude/teams/{team}/inboxes/{agent}.json</code>，含 from / text / timestamp / read / color / summary 六字段，靠 lockfile 与退避重试做并发安全）；(d) <strong>共享记事本</strong> Scratchpad——绿色双向，多 Worker 直接读写，不走权限审批。右侧三条独立卡片把三通道的方向、载体、语义并列写清。底部红字底注重申两条纪律："协调者不是一号 Worker · Worker 不能递归再派 Worker · 任务树始终可回放"。</p> <h3>5.1 协调者的不对称：只发牌不出手</h3> <p>协调者模式由 <code>COORDINATOR_MODE</code> 特性 + 环境变量启用。一旦进入这种模式，协调者<strong>只能用 4 件工具</strong>：</p> <table> <thead> <tr> <th>协调者唯一可用 4 工具</th> <th>用途</th> </tr> </thead> <tbody> <tr> <td><strong>AgentTool</strong></td> <td>派出新 Worker</td> </tr> <tr> <td><strong>SendMessage</strong></td> <td>给已存在 Worker 发一条续派消息</td> </tr> <tr> <td><strong>TaskStop</strong></td> <td>停掉一个跑偏方向的 Worker</td> </tr> <tr> <td><strong>SyntheticOutput</strong></td> <td>向用户合成最终回答</td> </tr> </tbody> </table> <p>协调者<strong>不能直接读文件、写文件、跑命令、查搜索</strong>。它必须把所有动手的事派出去。这条不对称的好处只有在系统跑久了才看得见：</p> <ul> <li><strong>任务树永远两层</strong>。Worker 的工具白名单（§5.2）里<strong>显式排除了 AgentTool</strong>——异步 Worker 不能再派 Worker。两层树天然可回放、可复盘。</li> <li><strong>角色提示零互染</strong>。协调者走 orchestrator 系统提示（强调"先想清楚再派活、不要替 Worker 重述发现、Workers can’t see your conversation"），Worker 走 executor 系统提示（强调"在边界内把事做完、自验证、提交 hash"）。即使背后是同一个模型，两种身份不会漂移。</li> <li><strong>协调者轻盈</strong>。它不持有大文件、不持有 Shell、不进 PostCompact 的高昂注入。这让它能并行盯多个 Worker 而不被任何单个 Worker 的输出流淹没。</li> </ul> <h3>5.2 工具白名单：硬约束的真实清单</h3> <p>工具可见性不是按角色"看心情发"，而是三组互斥的明文集合：</p> <table> <thead> <tr> <th>集合</th> <th>包含</th> <th>角色</th> </tr> </thead> <tbody> <tr> <td><strong>ASYNC_AGENT_ALLOWED</strong>（异步 Worker 的 15 件）</td> <td>FileRead / FileEdit / FileWrite / NotebookEdit / Grep / Glob / Shell（多名）/ WebSearch / WebFetch / TodoWrite / Skill / SyntheticOutput / ToolSearch / EnterWorktree / ExitWorktree</td> <td>异步 Worker 默认能用这一组</td> </tr> <tr> <td><strong>IN_PROCESS_TEAMMATE_ALLOWED</strong>（进程内队友的额外 5 件）</td> <td>TaskCreate / TaskGet / TaskList / TaskUpdate / SendMessage（可选 Cron 系列）</td> <td>在 Worker 集合之上额外开放，让队友互相协调</td> </tr> <tr> <td><strong>COORDINATOR_MODE_ALLOWED</strong>（协调者的 4 件）</td> <td>AgentTool / SendMessage / TaskStop / SyntheticOutput</td> <td>协调者唯一可用</td> </tr> </tbody> </table> <p><strong>ASYNC_AGENT_ALLOWED 显式排除以下工具</strong>，每一条都有明确理由：</p> <ul> <li><strong>AgentTool</strong> —— 防止递归 Worker 派 Worker</li> <li><strong>TaskOutputTool</strong> —— 防止递归读取另一个 Task 的输出</li> <li><strong>ExitPlanMode</strong> —— Plan Mode 是主线程抽象</li> <li><strong>TaskStop</strong> —— 需要主线程 Task 状态访问权</li> <li><strong>MCP / ListMcpResources / ReadMcpResource</strong> —— 暂时按 TBD 处理</li> </ul> <p>这份白名单不是文档建议，它由 <code>filterToolsForAgent</code> 在每次工具集组装时实际执行：MCP 工具放行；Plan 模式下 ExitPlanMode 放行；命中 ALL_AGENT_DISALLOWED 一律拒；自定义 Agent 命中 CUSTOM_AGENT_DISALLOWED 拒；<code>isAsync && !ASYNC_AGENT_ALLOWED</code> 拒，但进程内队友例外允许 AgentTool 与任务工具——这条例外规则就是上面"队友 5 件加菜"的源码落地。</p> <h3>5.3 三条通讯通道的语义分工</h3> <p>三条通道承载三种完全不同的语义。混用通道是多 Agent 系统最常见的"协议腐烂"形态——Claude Code 的一条纪律就是：<strong>不同语义绝不共用通道</strong>。</p> <table> <thead> <tr> <th>通道</th> <th>方向</th> <th>载体</th> <th>承载语义</th> </tr> </thead> <tbody> <tr> <td><strong>任务委派</strong></td> <td>父 → 子</td> <td><code>AgentTool</code> / <code>SendMessage</code> 调用 + 结果回流</td> <td>整体任务下发与最终结果</td> </tr> <tr> <td><strong>对等消息</strong></td> <td>Worker ↔ Worker</td> <td>文件邮箱（按团队 + agent 名隔离的 <code>inbox.json</code>）</td> <td>中间协商、状态同步、进度通报</td> </tr> <tr> <td><strong>共享记事本</strong></td> <td>多 Worker ↔ 共享磁盘目录</td> <td>Scratchpad 目录（无权限审批）</td> <td>大对象中转：接口列表、扫描结果、文件分片</td> </tr> </tbody> </table> <p><strong>通道一·任务委派</strong>的回流格式很关键。Worker 完成时，结果会作为一条 <strong>user-role 消息</strong>注入协调者的 transcript，正文是结构化的 <code><task-notification></code> XML：</p> <pre><code class="language-xml"><task-notification> <task-id>{agentId}</task-id> <status>completed | failed | killed</status> <summary>{human-readable status summary}</summary> <result>{agent's final text response}</result> <usage> <total_tokens>N</total_tokens> <tool_uses>N</tool_uses> <duration_ms>N</duration_ms> </usage> </task-notification></code></pre> <p>协调者的系统提示里有一段明确叮嘱："这看起来像 user 消息但不是 user 消息，要靠 <code><task-notification></code> 开头标签区分；用 <code>task-id</code> 作为 <code>to</code> 续派；<code><result></code>/<code><usage></code> 可缺省"。这条协议把"父子怎么对话"从隐式约定升级为机器可解析。</p> <p><strong>通道二·对等消息</strong>的载体看起来很"土"——一个磁盘上的 JSON 文件、一把文件锁、一段退避重试。但它换来三件事：可观测（任意时刻 cat 出来检查）、异步（发完不必等回复）、零额外基础设施。代价是不适合每秒数百条消息的极高频协作——这种场景 Claude Code 不是它的目标市场。</p> <p><strong>通道三·共享记事本</strong>与"记忆"的边界是时间尺度：Scratchpad 跨 Worker 但<strong>不跨会话</strong>；记忆跨会话甚至跨项目（详见 §6）。</p> <h3>5.4 委派时序</h3> <p>把这三条通道放回一次完整委派的时序里，会得到下面这张图：</p> <pre><code class="language-mermaid">sequenceDiagram autonumber participant U as 用户 participant C as 协调者 participant A as AgentTool / TaskCreate participant W as Worker (Local / Remote / Teammate) participant O as 任务输出基板 U->>C: 提交请求 C->>C: 规划 · 写 Todo / Brief C->>A: 委派 · 目标 + 约束 + Worker 角色提示 A->>W: 实例化 Task · 分配 id 与工具子集 W-->>O: 流式输出 · 活动追踪 · token 记账 W->>A: 完成 · 返回 transcript 引用 A->>C: 注入 <task-notification> XML 到协调者 user 消息流 C->>C: 聚合 · 复盘 · 决定下一步 alt 续派 C->>W: SendMessage(to=task_id) else 全部完成 C-->>U: SyntheticOutput · 最终回答 end</code></pre> <p>一条容易被忽略的细节：Worker 的流式输出<strong>直接进任务输出基板</strong>，不需要先回到协调者再转出去。协调者只在汇总环节去读基板，不承担实时转发的职责。这是协调者能并行盯多个 Worker 还不被淹没的工程基础。</p> <h3>5.5 远端 Agent 与本地等同</h3> <p>远端 Agent 在这张拓扑里跟本地 Worker 几乎没差别。通过 Bridge + RemoteTrigger，远端被包成一个 id 前缀为 <code>r</code> 的标准 Task：相同的生命周期、相同的输出基板接口、相同的 <code><task-notification></code> 回流格式。一次任务从本地搬到远端，<strong>不需要改协调者的提示词、不需要改任务树形状、不需要改调用方心智模型</strong>。这是 §4 "形态六变、契约不变"在多 Agent 平面上的直接红利。</p> <hr /> <h2>6. 记忆三分层：可读目录 + 5 槽位选择器</h2> <p><img width="100%" src="http://weizn.net/wp-content/uploads/2026/05/post-1079-6a003d3f39fe9.png" /></p> <p><strong>图释</strong>：上方三张并列卡片展示三种作用域——个人记忆（私有、跨项目、家目录隐藏目录）/ 团队记忆（按 team 名前缀隔离、组内共享 gotchas）/ Scratchpad（跨 Worker 持久但不跨会话），每卡明示作用域、存储位置、用例、特点四条事实。下方一条横贯长条"相关性召回流水线"展开三段式：① 入口索引 <code>MEMORY.md</code>（双护栏 ≤200 行 / ≤25 KB · 超限先按行裁再按字节裁到最近换行 · 文末追加截断警告 · 直接注入系统提示）→ ② 主题文件阵列（每文件独立、含 frontmatter、按 mtime 记新鲜度、可被选择器按需召回）→ ③ 相关性选择器（Sonnet side-query · 5 槽位预算 · 输入=用户查询+主题 headers+最近使用工具 · <code>alreadySurfaced</code> 排除集 · <code>recentTools</code> 例外规则——gotcha/warning 类必召回 · 空选择也打点）。右侧 <code>MEMORY_SHAPE_TELEMETRY</code> 把选择率、召回噪声等指标长期可观测化。底部一句话总纲："不靠向量靠目录，不靠全量注入靠一次 5 槽位的精确挑选"。</p> <p>§3 解决了"单次会话内上下文如何不崩"。还有另一个独立问题：<strong>跨会话、跨项目、跨人的经验如何沉淀、又如何被调回来？</strong></p> <p>常见做法是向量库——切块、嵌入、相似度检索。Claude Code 选择了一条反潮流的路径：记忆是一棵<strong>可被人类阅读的目录树</strong>，召回交给一次小型 LLM 调用而不是相似度函数。</p> <h3>6.1 三分层：按可见边界切分</h3> <p>第一层切分不按内容、按可见边界：</p> <table> <thead> <tr> <th>分层</th> <th>作用域</th> <th>落地位置</th> <th>典型内容</th> </tr> </thead> <tbody> <tr> <td>个人记忆</td> <td>私有，跨项目</td> <td>用户家目录隐藏目录</td> <td>偏好、快捷指令、个人踩坑教训</td> </tr> <tr> <td>团队记忆</td> <td>团队前缀隔离，组内共享</td> <td><code>~/.claude/teams/{team}/...</code></td> <td>历史遗留问题的修复笔记、规避方法</td> </tr> <tr> <td>Scratchpad</td> <td>跨 Worker，<strong>不跨会话</strong></td> <td>协调者提供的共享目录</td> <td>本次任务的中间过程物</td> </tr> </tbody> </table> <p>作用域硬边界换来两件事：边界不漂移（团队记忆不会泄漏到所有项目）、颗粒不失控（Scratchpad 不会沉淀成永久知识）。这是记忆系统的第一道纪律。</p> <h3>6.2 入口索引：带双护栏的 MEMORY.md</h3> <p>记忆目录里不放成百上千篇零散文件。它有一个明确的入口文件 <code>MEMORY.md</code>，被直接注入系统提示——<strong>每一轮循环的上下文里都能看到它</strong>。</p> <p>正因为它要常驻系统提示，它必须瘦。两条强制护栏同时生效：</p> <ul> <li><strong>行数上限：≤ 200 行</strong></li> <li><strong>字节上限：≤ 25 KB</strong></li> </ul> <p>任意一条被触发就启动截断。截断不盲目：先按行裁到 200 行，再按字节裁到最近一个换行位置（避免半行截断），裁完在文末追加一段警告——明文告诉模型"本索引被截断了，把细节挪到主题文件里去"。</p> <p>这条设计承认了一个真相：<strong>索引是系统提示的一部分，它越臃肿越贵，越贵越要被压缩</strong>。与其让它悄悄变胖，不如在阈值处强行打一次警示，逼用户或 Agent 把细节搬到主题文件。索引和主题的分工是在护栏驱动下自然演化的。</p> <h3>6.3 主题文件阵列：让细节有自己的家</h3> <p>每个主题一个文件。文件开头有一段 frontmatter（标题、描述、类型）——<strong>给召回阶段读的，不是给最终注入读的</strong>。文件正文可以写得很详尽：代码示例、来龙去脉、整套决策过程都行。</p> <p>文件按 mtime 记新鲜度。新鲜度不是排序键，而是<strong>告诉模型"这条记忆距今多久了"</strong>。陈年记忆被误用为新鲜事实，是所有长期运行 Agent 最容易栽的坑——这条 mtime 信息是兜底。</p> <h3>6.4 相关性选择器：一次 5 槽位的精确挑选</h3> <p>真正让这套目录树升级为"有语义召回能力"的，是相关性选择器。它不是向量匹配，而是一次<strong>侧链 LLM 调用</strong>：把当前用户请求 + 所有候选主题的 frontmatter + 最近使用过的工具一起喂给一个小 Sonnet 模型，让它挑出<strong>至多 5 个</strong>主题进入本轮上下文。</p> <p>这次调用的几个关键约束：</p> <ul> <li><strong>槽位预算硬上限 5</strong>。给 10 条与给 5 条相比，前者反而让模型分心；如果一轮真的装不下，留给下一轮继续召回。</li> <li><strong><code>alreadySurfaced</code> 排除集</strong>。本会话已经露出过的记忆不再重复占用槽位——召回预算应该花在新鲜候选上。</li> <li><strong><code>recentTools</code> 过滤规则 + 例外</strong>。如果用户刚在用 grep，那么"grep 的 API 文档"类记忆<strong>不必召回</strong>——Agent 已经在活跃使用它了。但有一条关键例外：<strong>关于这个工具的 gotcha / 已知缺陷 / 警告类记忆仍要召回</strong>。这条规则区分了"相关性"和"有用性"——一个工具被频繁使用恰恰是它的 warning 最该露面的时刻。</li> <li><strong>空选择也打点</strong>。本轮哪怕一条都没挑上，也记一次空选择事件。这让"选择率"变成可被长期度量的指标——选择率太低、某些主题常年不被召回、header 描述要不要改——这些问题只有空选择被打点时才能被分析。</li> </ul> <p>加上遥测层 <code>MEMORY_SHAPE_TELEMETRY</code>，整套记忆子系统的健康度是可观测、可演化的。</p> <h3>6.5 为什么不走向量？</h3> <p>三条理由都藏在前面的设计里：</p> <ol> <li><strong>可读性比相似度更重要</strong>。打开 <code>MEMORY.md</code> 能迅速看见"我的记忆里有什么"；打开向量库只能看一堆浮点数。记忆不只给模型看，也给它的拥有者看。</li> <li><strong>索引 + 主题二段式天然支持"低注入、按需加载"</strong>。索引常驻系统提示，主题懒加载。向量库很难做到这种"选择性可见"。</li> <li><strong>相关性交给语义模型，比交给相似度函数更贴近人</strong>。Sonnet 在理解"工具的 API 文档不必再召回但它的 gotcha 一定要召回"这种微妙规则上，远胜于一个固定相似度公式。</li> </ol> <p>一句话收束：<strong>不靠向量靠目录，不靠全量注入靠一次 5 槽位的精确挑选</strong>。</p> <hr /> <h2>7. 四贯穿控件：让 Runtime 在真实世界里活下来</h2> <p>§1 已经把这四件控件挂在了全景图右侧。它们不在任何一层内部，但同时作用于所有层。去掉任何一根，系统在演示场景里能跑，在长跑、出错、被中断、超长任务时会逐步崩塌。</p> <p><img width="100%" src="http://weizn.net/wp-content/uploads/2026/05/post-1079-6a003d3f46305.png" /></p> <p><strong>图释</strong>：四件控件按 2×2 网格展开。① <strong>AbortController · 分层中断</strong>：主会话 → 子 Task → 单次工具三级取消树，标注三条不变量（下沉但不上爆 / 父取消必到达孩子 / 取消时 drain in-flight 工具）。② <strong>StopHooks · 停顿钩子</strong>：三类停止事件（assistant turn 结束 / tool call 结束 / 阶段边界）映射到三种返回模式（观察 / 改写上下文 / preventContinuation 截停）。③ <strong>TokenBudget · 三道预算阀</strong>：硬窗口 / 工作预算 (effectiveWindow − 13K) / 系统预留 (reservedForSummary = min(modelMaxOutput, 20K))，下方再标注 WARNING/ERROR=20K · BLOCKING=3K · 熔断 ≥3 次。④ <strong>CleanupRegistry · 清理登记</strong>：样例登记表（PTY · close / FileLock · release / TempConn · disconnect）+ 三条性质（登记幂等 / 执行有序 / 容错执行）+ "任务结束 · 失败 · 取消"触发器。底部金句"去掉任何一根 · Runtime 演示能跑 · 长跑必崩"。</p> <h3>7.1 AbortController · 分层中断</h3> <p>主会话、子 Task、单次工具调用各持一个独立的 <code>AbortController</code>，组成一棵取消树。三条不变量：</p> <ul> <li>用户的 Ctrl-C 落在最外层后，信号沿委派边逐级下沉，每一层都可以挂钩做清理。</li> <li>子 Task 的取消<strong>不会</strong>向上爆炸——只影响它自己与它的孩子。</li> <li>父 Task 的取消<strong>必然</strong>到达每个孩子。</li> </ul> <p>取消信号被直接挂到流式 <code>callModel</code> 调用上，所以"我按了 Ctrl-C 但模型还在说话"这种情形不存在。<code>drain</code> in-flight 工具结果的兜底（§2 事件 8）确保即使取消，也不会留下任何 orphan tool_use。</p> <h3>7.2 StopHooks · 停顿钩子</h3> <p>每一次"停止事件"都允许钩子介入：</p> <ul> <li>一次 assistant turn 结束</li> <li>一次 tool call 结束</li> <li>一次阶段性边界</li> </ul> <p>钩子的三种返回方式：</p> <ol> <li><strong>观察</strong>：只记录，不改变流程</li> <li><strong>改写</strong>：在下一轮上下文里插入补充消息或修改已生成内容</li> <li><strong>拦截</strong>：直接 <code>preventContinuation</code>，把循环截停（见 §2 事件 11）</li> </ol> <p>StopHooks 的本质是<strong>在不改 Runtime 本体的前提下向外暴露的可编程边界</strong>——SDK 用户、企业插件、内部 telemetry 都通过它接入。</p> <h3>7.3 TokenBudget · 三道预算阀</h3> <p><code>TokenBudget</code> 不是一根硬上限，而是三道分账阀门：</p> <table> <thead> <tr> <th>阀门</th> <th>上限来源</th> <th>守的东西</th> </tr> </thead> <tbody> <tr> <td>硬窗口</td> <td><code>contextWindow(model)</code></td> <td>最后一道墙，破了就直接 API 错误</td> </tr> <tr> <td>工作预算</td> <td><code>effectiveWindow − AUTOCOMPACT_BUFFER (13K)</code></td> <td>还能动手做事的余量</td> </tr> <tr> <td>系统预留</td> <td><code>reservedForSummary = min(modelMaxOutput, 20_000)</code></td> <td>给摘要请求自身留的输出空间，不可被压缩占用</td> </tr> </tbody> </table> <p>三道阀让"还要不要动手"和"还要不要想下一步"各自有气口——这是 §3 五级压缩梯子能按侵入性分级的工程前提。</p> <p>另外存在一条<strong>用户可声明的 task budget</strong>：在用户输入里写 <code>+500k</code> / <code>use 2M tokens</code> 这类自然语言时，系统解析为本次 turn 的 token 目标，并在累计 token < 90% 目标值时主动让模型继续推进；连续 3 轮 token 增量小于 500（收益递减判定）则提前停止。这条机制与"上下文窗口预算"是两个层面，不要混淆——前者是"花多少 token 做完一件事"，后者是"还能放多少 token 进上下文"。</p> <h3>7.4 CleanupRegistry · 清理登记</h3> <p>每一个可能留下"尾巴"的动作都必须把自己的清理动作登记进来：打开的 PTY、持有的文件锁、后台派出去的 Task、临时数据库连接……任务结束 / 失败 / 被取消时，登记表被按序执行。三条性质决定了它的强度：</p> <ul> <li><strong>登记幂等</strong>：同一动作多次登记只登记一次</li> <li><strong>执行有序</strong>：先登记的有清晰的先后约定</li> <li><strong>执行容错</strong>：单个清理失败不阻塞剩余动作</li> </ul> <p>这一点决定了整个 Runtime 的失败语义从"靠语言运行时 GC 赌人品"升级成了"可幂等、可重放"——这是长跑系统不可绕开的工程基础设施。</p> <hr /> <h2>8. 设计哲学、代价与适用边界</h2> <p>前面七章把 Claude Code Runtime 拆到了零件。最后一章只做两件事：把零件背后的设计哲学浓缩成可复用的工程原则，再坦白这套设计在哪些场景<strong>不</strong>适合。</p> <h3>8.1 五条可复用的设计哲学</h3> <p><strong>一 · Task 一等公民</strong>。不定义"什么是 Agent"，把所有执行体抽象成 Task。共享 id / 工具子集 / 输出基板 / 取消链四件契约，形态在协议层之外可任意切换。委派策略与执行环境因此完全解耦，"任务从本地搬到远端"变成一次 id 前缀变更而非系统级改造。</p> <p><strong>二 · 压缩即梯子</strong>。把窗口管理从"一次摘要"换成"一条阶梯"。从 SessionMemory 的 IO 级零损失，到 Reactive 的事件驱动局部裁剪，到 Microcompact 的白名单工具结果清扫，到 Full Compact 的 forked agent 摘要 + 50K 注入预算，到 Context Collapse 的最小骨架兜底——每一级都比上一级多放弃一点、但比粗暴摘要少损失很多。先尝试最轻、扛不住才抬升侵入性。</p> <p><strong>三 · 三通道各司其职</strong>。父子委派走 AgentTool；兄弟协作走文件邮箱；共享中间过程物走 Scratchpad。<strong>不同语义绝不共用通道</strong>。这是 Claude Code 多 Agent 系统能跨多 Worker 跑久而不腐烂的协议基础。</p> <p><strong>四 · 协调者不对称</strong>。规划、委派、汇总归协调者；动手归 Worker。协调者唯一可用 4 工具；Worker 工具白名单显式排除 AgentTool 阻断递归。任务树永远两层——这是可观测、可回放、可复盘的工程前提。</p> <p><strong>五 · 记忆是可读目录 + 语义选择器</strong>。不走向量，走可被人类阅读的目录树和一次 5 槽位 Sonnet 召回。200 行 / 25 KB 的 MEMORY.md 双护栏让索引被动瘦身；recentTools gotcha 例外这种微妙规则交给语义模型而不是相似度公式；空选择也打点让选择率长期可观测。</p> <p>这五条放在一起看，会发现它们指向同一个母题：<strong>把人的纪律显式刻进 Runtime</strong>。Task 一等公民是"不要给自己留技术债"；压缩梯子是"让步要分级"；三通道是"不同话不要混着说"；协调者不对称是"规划与执行分开"；记忆可读是"系统也要被它的拥有者读懂"。</p> <h3>8.2 三条必须如实承认的代价</h3> <p><strong>心智负担</strong>。六层叠层 + 四贯穿控件 + 五条哲学，理解它至少要在脑子里同时装着六个独立平面 + 四个控件。对想要快速上手的用户来说，这比"一个大 Prompt + 一堆工具"的简单框架门槛高。它的优势要在系统跑过几周、任务开始堆叠、跨会话复盘成为日常之后才显现。</p> <p><strong>文件邮箱的并发上限</strong>。对等消息走文件系统而不是 RPC，胜在可观测、异步、零额外基础设施。代价是不适合每秒数百条消息的极高频协作——这种场景会把文件锁退避机制打满。</p> <p><strong>Sonnet 选择器的额外开销</strong>。每次召回都要调用一次小 Sonnet 做 5 槽位挑选。比向量检索略贵、响应略慢；换来更精确的相关性与更少的召回噪声。对一次性轻量问答场景，这是过度设计。</p> <h3>8.3 适用与不适用的边界</h3> <p><strong>不适合</strong>：</p> <ul> <li>单轮短问答 / 一次模型推理 + 一两次工具调用就结束的任务——这套 Runtime 的大多数平面都会闲置。</li> <li>极高频 Worker 间消息（每秒数百条以上）——文件邮箱的目标市场不在这里。</li> <li>一次性轻量 RAG 场景——Sonnet 选择器的开销不划算。</li> </ul> <p><strong>适合</strong>：</p> <ul> <li>长周期工程型任务：跨天的代码迁移、跨多个 session 的 bug 追踪、跨团队的知识沉淀。</li> <li>需要可回放、可观测、可复盘的协作场景：任务树永远两层、每条父子边都走显式 <code><task-notification></code>、每次压缩都有钩子前后快照、每次记忆召回都被打点。</li> <li>需要在长时间内持续演化"工程经验"的团队：MEMORY.md 双护栏 + 主题文件 + Sonnet 选择器构成一个可活的知识子系统。</li> </ul> <h3>8.4 一句话收束</h3> <p>Runtime 是 Agent 系统的骨头，不是 Prompt 工程，不是工具列表。Agent 框架的竞争终将从"我有多少工具、我能装多少 MCP"走向"我的 Runtime 有没有纪律、我的任务能不能被回放、我的记忆能不能演化"——而 Claude Code 这套<strong>六层叠层 × 四贯穿控件 × 五级压缩梯子 × 三通道通讯</strong>的骨骼，是在这条新赛道上一份扎实的参考实现。</p>

六层叠层 × 四贯穿控件 × 五级压缩梯子——一次把骨架、阈值与算法都讲清楚

1. 全景：六层叠层与四贯穿控件

Claude Code 的 Agent Runtime 由六个水平堆叠的层与四个垂直贯穿的控件构成。每一层独立回答一个工程问题，每一个控件独立解决一类失效模式。把它们一次性铺在一张图上：

六层职责：

层级	回答的工程问题	主要载体
① 入口面	请求从哪里进、如何归一化	用户提示、斜杠指令、会话恢复、SDK Headless 调用
② 编排平面	谁拆解、谁汇总	协调者 Agent、Plan Mode、Worktree、Todo / Brief
③ Runtime 循环	一轮"思考—调用—反思"如何走完	流式采样、流式工具调度、压缩决策、停止钩子
④ Task 底座	真正跑起来的执行体长什么样	六种 Task 形态、统一生命周期工具
⑤ 工具能力面	Agent 能做什么	42 个内建工具六分簇、外部 MCP / Skill 扩展
⑥ 记忆与持久化	跑完之后留下什么	个人记忆、团队记忆、Scratchpad、索引与选择器

四贯穿控件：

控件	解决的失效	关键机制
AbortController	中断信号沿调用栈漂失	主会话/子任务/单次工具各持一个，沿委派边逐级下沉
StopHooks	停止事件无可编程边界	模型 turn 结束 / tool 结束 / 阶段边界三类停止点皆可挂钩
TokenBudget	单一硬上限触发反复横跳	三道阀分账：硬窗口 / 工作预算 / 系统预留
CleanupRegistry	PTY、文件锁、临时连接的尾巴失收	幂等登记、有序清理、容错执行

后续章节按"先循环、再压缩、再执行体、再调度、再记忆、再控件、再哲学"的顺序逐层下钻。每一节都尽量给出可被工程师认账的阈值、算法步骤或源码事实。

2. Runtime Loop：while-true 内的 12 个事件

很多 Agent 框架把主循环描述成 think → act → observe 三拍。这种说法把"流式""并发""中断""压缩""停顿钩子"全部隐去。Claude Code 的真实主循环是一个单进程、单 while (true)、单 async generator 的事件序列——每一拍都直接对应若干可观察的 yield 与 state 变更。

图释：左侧把一轮 while(true) 内 12 个事件按发生顺序竖向展开，每个事件含编号、事件名（含真实 API 标识如 streamingToolExecutor / microcompact_boundary）、与一行作用注。事件 4 (Reactive Compaction)、10 (AutoCompact 决策)、11 (StopHooks 仲裁) 标注为"条件触发 / 仲裁"分支；事件 8 (abort drain) 标注为"兜底"——这是取消信号到达时把 in-flight 工具补完成 tool_result、避免 orphan tool_use 的关键不变量。事件 12 通过左侧弧形箭头"下一轮迭代"折回事件 1，构成单一闭环。右侧表列出跨轮携带的 9 个 State 字段——这是把"上一轮发生了什么"压成下一轮可读快照的最小集。底部金句"Runtime 不是一次推理 · 是一台节拍器"概括整章。

2.1 跨轮携带的 State

主循环在每次迭代开头都会从一个 State 对象 destructure 取值，迭代结尾以"整体替换"的方式提交一次新 state。跨轮携带的关键字段如下：

字段	含义	关键作用
`messages`	当前会话消息序列	压缩与摘要替换的对象
`toolUseContext`	工具调用上下文，含 abortController	取消信号挂载点
`autoCompactTracking`	含 `compacted / turnCounter / turnId / consecutiveFailures`	触发压缩判定 + 熔断
`maxOutputTokensRecoveryCount`	输出 token 截断的恢复次数	防止反复触发 max_output_tokens 错误
`hasAttemptedReactiveCompact`	当前轮是否已经反应式压缩过	避免同一轮重复压
`pendingToolUseSummary`	待结算的工具结果摘要 promise	流式工具的异步收尾
`stopHookActive`	停止钩子是否已激活	区分"自然停止"与"钩子干预后再循环"
`turnCount`	累计回合数	配合 `maxTurns` 做硬上限
`transition`	上一轮为何继续	调试与回放用

这九个字段把"上一轮发生了什么"压缩成一份可被下一轮读懂的最小快照。任何跨轮决策（是否压缩、是否走反应式路径、是否再退一步重试）都从这份快照出发。

2.2 一轮迭代的 12 个事件

把 while (true) 内部一轮真实执行展开，按发生顺序如下。每一项都标注了它对 state 的写入或外部副作用。

入轮 destructure：从 state 取出全部字段，绑定为本轮局部变量。
请求开始事件：向上层 yield type: 'stream_request_start' ，让 UI / SDK 端可以打开一个新 turn 边界。
Microcompact 预清扫：调用微压缩入口。如果命中 cached-MC 路径，仅按 tool_use_id 在 API 层挂上 cache_edits 删除指令，本地 messages 内容完全不变；如果命中 time-based 路径，则把超过时间阈值的旧 tool_result 内容替换为字符串 [Old tool result content cleared]。两种路径都不撕缓存前缀。
Reactive Compaction（条件触发）：当上一轮命中过 prompt-too-long（413）且未完成反应式压缩时进入。yield 一个 boundary message，再 yield buildPostCompactMessages 注入的恢复消息，本轮 messagesForQuery 被替换。
流式采样：进入内层 attemptWithFallback 循环，调用 callModel，把 toolUseContext.abortController.signal 直接挂到流上。模型一边生成一边产出 tool_use 块——不必等模型把整段话说完。
流式工具派发：解析到 tool_use 段的同一时刻，工具被交给 streamingToolExecutor 并发执行。多个工具间的执行顺序由 executor 编排，结果按完成时间逐个回灌。
Microcompact 边界标记：一旦微压缩在本轮内确实清掉了若干 tool_result，yield 一条 microcompact_boundary 消息，让 UI / 回放系统知道哪一轮发生过隐式裁剪。
取消处理：每次进入下一阶段前都检查 abortController.signal.aborted。一旦置位，主循环不立刻退出，而是先 drain streamingToolExecutor.getRemainingResults()——把所有 in-flight 的工具结果都补成 tool_result 块。这一步保证不会留下任何 tool_use 没有匹配 tool_result 的 orphan，否则下次提交 API 会直接被拒。
用户中断标记：若取消原因不是 interrupt，yield 一条 user_interruption 消息，避免静默消失。
AutoCompact 决策：到本轮尾声，调用 autoCompactIfNeeded。如果触发，先尝试 SessionMemory 路径；失败再走 Full Compact。压缩成功则 yield 出新的 PostCompact 消息序列并整体替换 state.messages，把 autoCompactTracking.compacted 置 true、turnCounter 归零；失败则递增 consecutiveFailures 并在达到 3 次时熔断（详细阈值见 §3）。
StopHooks 仲裁：把"本轮已完成"的事实交给 handleStopHooks。三种返回：(a) preventContinuation —— 直接退出主循环，turn 结束；(b) blockingErrors —— 把错误注入下一轮上下文，标记 stopHookActive=true 后回到下一轮；(c) 通过 —— 自然继续。
状态提交：以"整对象重写"的方式生成新 state，避免 9 个字段散点赋值产生不一致。回到事件 1。

2.3 事件流图

graph TD
    S[入轮 destructure] --> A[yield stream_request_start]
    A --> B[Microcompact 预清扫]
    B --> R{Reactive 条件?}
    R -- 命中 --> RC[反应式压缩 · 替换 messages]
    R -- 未命中 --> M[流式采样 callModel]
    RC --> M
    M --> T[流式工具派发 · 并发执行]
    T --> X{命中微压缩?}
    X -- 是 --> XB[yield microcompact_boundary]
    X -- 否 --> C
    XB --> C{abort 置位?}
    C -- 是 --> D[drain 剩余工具结果]
    D --> U[yield user_interruption]
    U --> AC
    C -- 否 --> AC{AutoCompact 触发?}
    AC -- 是 --> CP[SessionMemory → Full → PostCompact 注入]
    AC -- 否 --> H
    CP --> H[StopHooks 仲裁]
    H --> HD{preventContinuation?}
    HD -- 是 --> END[退出主循环 · turn 结束]
    HD -- 否 --> NS[整体替换 state] --> S

2.4 两个容易被低估的设计决策

流式工具并发。多数框架选择"等模型说完再批处理工具"，理由是更可控。代价是每轮多等一次完整生成。Claude Code 选择在 tool_use 段刚被解析出来的同一时刻就交给 executor 并发跑，节奏更接近人的"边想边做"。代价是必须把"取消时 drain 掉所有 in-flight 工具"做对，否则 orphan tool_use 会让后续 API 调用直接 400。事件 8 就是这条不变量的兜底。

TokenBudget 不是单根硬上限。如果只有一根线"到了就摘要"，就只能在阈值附近反复横跳。Claude Code 把预算拆三道——硬窗口、工作预算、系统预留，让"还能不能动手"和"还能不能想下一步"分开决策。这正是 §3 五级压缩梯子能按侵入性分级的前提：没有三道阀，就没有可分级的空间。

3. 上下文压缩：五级梯子与每一级的真实算法

图释：图自左向右依侵入性递增展开五级阶梯——① SessionMemory Compaction（IO 级零损失，不撕缓存，依赖后台 agent 已抽取好的会话摘要文件）→ ② Reactive Compaction（事件驱动局部裁剪，被 413 prompt-too-long 触发，最小化扰动）→ ③ Microcompact（白名单 8 类工具的旧 tool_result 清扫，双路径：cached MC 用 cache_edits API 不撕缓存 / time-based 把过期 tool_result 内容替换为占位符）→ ④ Full Compaction（forked agent 摘要 + cache 重建 + PostCompact 50K 注入预算）→ ⑤ Context Collapse（折叠到最小骨架 · 任务意图 + 活跃 Task id + 关键系统提示 · 兜底）。AutoCompact 入口默认走 ① → ④ 的链路，先尝试最轻一级、扛不住才抬升；Reactive 与 Collapse 由独立特性门控触发，与 AutoCompact 互斥，避免两条路径同时改写同一份历史。

上下文窗口是刚性资源，但它不是非黑即白的"够 / 不够"。Claude Code 在窗口管理上做的关键决策只有一句话——把"一次摘要"换成"一条阶梯"：先尝试侵入性最小的一级，扛不住再逐级抬升，每一级都明确知道自己在牺牲什么。

下面把这条阶梯彻底拆开，从触发数学一路推到压缩动作再到事后清理。

3.1 触发数学：effective window 与三道阈值

所有压缩判定都基于一个派生量 effective context window，而不是模型标称的窗口大小：

effectiveWindow = contextWindow(model) − reservedForSummary
reservedForSummary = min(modelMaxOutput, 20_000)

换言之，每个会话先扣掉 20K token 给摘要请求自己——因为 Full Compact 触发时还要让模型生成一份新摘要，这部分输出空间必须留出来。CLAUDE_CODE_AUTO_COMPACT_WINDOW 环境变量可在测试时把 contextWindow 进一步收紧。

在 effective window 之上，再划三道阈值，每道有自己的缓冲常量：

信号	公式	缓冲量	用途
AutoCompact 触发线	`effectiveWindow − 13_000`	`AUTOCOMPACT_BUFFER = 13K`	主动压缩起点，对应"还有 ≤13K 余量"时进梯子
Warning / Error 信号线	`effectiveWindow − 20_000`	`WARNING/ERROR_BUFFER = 20K`	UI 提示用户上下文吃紧
阻塞硬上限	`effectiveWindow − 3_000`	`MANUAL_COMPACT_BUFFER = 3K`	即将彻底没空间，新请求被拒

tokenUsage 由 tokenCountWithEstimation(messages) 估算得到（含 tool_result、image=2000 token、document=2000 token、thinking 文本，最后整体 ×4/3 保守填充）。每一轮迭代尾部都会用同一份 tokenUsage 与三条线比对，决定本轮是否进入梯子。

熔断：连续 3 次自动压缩失败后，整会话的 autoCompact 通道被切断。这条电路保护源于一份生产数据——曾有 1279 个会话在不可恢复超长的状态下反复尝试压缩（最高单会话 3272 次），每天浪费约 25 万次 API 调用。

3.2 五级梯子：触发 → 算法 → 影响

触发线一旦被越过，不会直接走"摘要全部历史"。系统按下表自下而上逐级尝试，每一级都比上一级多放弃一点细节、但比粗暴摘要少损失很多上下文：

级别	触发	算法核心	对 messages 的影响	对 prompt cache 的影响
① SessionMemory Compaction	AutoCompact 触发后优先尝试	从 `lastSummarizedMessageId` 之后保留消息，向前扩张直到 `tokens ≥ minTokens(10K)` 且 `文本块消息数 ≥ 5`，硬顶 `maxTokens=40K`；展开过程严守 `tool_use ↔ tool_result` 配对、`thinking` 块与同 message-id 不切断	把已保留段落写入摘要 + 头部插入 boundary marker；后段保留原样	不撕缓存前缀
② Reactive Compaction	API 返回 `prompt-too-long`(413) 后被动触发，特性门控开启时启用	局部裁剪触发那次请求里最长的 tool_result 或最旧的几条消息，再重新提交	局部替换，最小化扰动	仅打断局部 cache，不全失效
③ Microcompact	Token 预算预警 / cache 容量预警 / 时间间隔过长	双路径：(a) `cachedMicrocompact` —— 不动本地消息，向 API 发送 `cache_edits` 指令删除已过期的 `tool_result`；(b) `timeBasedMicrocompact` —— 当距离上一条 assistant 消息 gap > 阈值时，把旧 `tool_result` 内容替换为字符串 `[Old tool result content cleared]`，至少保留最近 1 条	仅清白名单 8 类工具的旧 tool_result：FileRead / FileEdit / FileWrite / Grep / Glob / Shell / WebSearch / WebFetch；其它工具结果不动	(a) 不撕缓存；(b) 因内容已变，下次自然冷启动
④ Full Compaction	SessionMemory 不可用 / 失败 / 用户敲 `/compact`	起一个 forked agent 读完当前所有消息（先剥图：`image` / `document` 替换为 `[image]` / `[document]` 占位），生成一段摘要，把摘要 + boundary marker + 必要附件 + 计划文件作为新的 `messages` 头部；最多重试 2 次	历史消息整体被替换；保留最近一段已切片的消息以维持 API 不变量	整段 cache 失效，必须 notify cache-break-detection 把这次掉缓存计为合法事件而非异常
⑤ Context Collapse	特性门控打开且 90% 触发 commit-start / 95% 阻塞 spawn	折叠到最小骨架：仅保留任务意图、当前活跃 Task 的 id 指针、关键系统提示	几乎所有中间过程被舍弃	整段 cache 失效，但保留任务级 id 链路供后续重建

几条容易被忽略但很关键的不变量：

梯子并非每一级都会跑一遍。AutoCompact 入口先 try 一次 SessionMemory，失败才走 Full；Reactive 与 Context Collapse 则由各自门控独立触发，与 AutoCompact 互斥（防止两条路径同时改写同一份历史）。
SessionMemory 路径不调模型。它依赖另一个后台 agent 已经异步抽取好的会话摘要文件，主循环只是"取过来直接当 PostCompact 用"，所以代价是 IO 级而非 API 级——这正是它能放在梯子最底层、被默认优先尝试的原因。
Microcompact 的两条路径互斥。time-based 一旦命中就 short-circuit 返回，因为它已经把缓存搞冷了，再让 cached-MC 试图编辑缓存只会出错。

3.3 PostCompact 注入：摘要之后还要塞回什么

全量压缩之后并不是"只剩一段摘要"。系统会按一份带预算的清单把必要上下文重新注入：

注入项	预算	说明
摘要消息本身	—	由 forked agent 生成的对话摘要
计划附件（Plan）	—	当前 Plan 文件全文（如有）
重要文件回填	总 ≤ 50K，单文件 ≤ 5K，最多 5 个	摘要前后曾被读取的高价值文件，按规则截取
Skills 回填	总 ≤ 25K，单 skill ≤ 5K	已被调用过的 skill 描述，按 token 预算截顶
MCP / 工具列表增量	—	如果工具集有变化则注入 delta

这份"重新注入"是 Claude Code 让用户在 /compact 之后仍能"接着干"的关键。常见错误实现是只保留摘要——结果模型立刻把已经读过的关键文件再读一遍，开销翻倍。

3.4 PostCompact 的 9 项幂等清理

压缩成功不只是替换了 messages。它还会触发一组明确登记的清理动作，每一项都是"压缩对运行时其它状态的副作用必须被显式归零"——否则下一轮 cache 命中、权限检查、记忆加载都会指向错的对象：

resetMicrocompactState —— 清掉 cached MC 已注册的 tool_id 表与 pending cache_edits（否则下轮会试图编辑 server 上已不存在的 tool）
resetContextCollapse（仅主线程压缩时）—— 折叠状态归零
getUserContext.cache.clear() —— 清外层用户上下文记忆缓存
resetGetMemoryFilesCache('compact') —— 清内层 CLAUDE.md / MEMORY.md 加载缓存，重新触发 InstructionsLoaded 钩子
clearSystemPromptSections —— 系统提示分段清零，避免 stale section 漏出
clearClassifierApprovals —— 清掉之前批过的分类器 yolo 审批
clearSpeculativeChecks —— Bash 投机权限检查清零
clearBetaTracingState —— Beta tracing 状态清零
clearSessionMessagesCache —— 会话消息缓存清零

同时调用 notifyCompaction / notifyCacheDeletion 主动告诉 prompt-cache-break 检测器："这次缓存掉是预期的，别误报为异常"；调用 setLastSummarizedMessageId(undefined) 重置摘要指针——因为 Full Compact 替换了所有消息 UUID，任何指向旧 UUID 的指针都已经失效；调用 markPostCompaction() 让上层标记"刚刚压缩过"，便于 UI 给用户提示。

这九项清理动作全部要求幂等：同一动作多次调用结果一致；个别清理失败不阻塞剩余动作。这一条把整个 Runtime 的失败语义从"靠 GC 赌人品"改成了"可幂等、可重放"。

3.5 子 Agent 中调压缩的特殊处理

主线程与子 Agent 跑在同一进程里，模块级状态（context-collapse store / memory file cache / userContext cache）是共享的。因此 runPostCompactCleanup 会先按 querySource 区分调用源：

主线程压缩 → 9 项全跑
子 Agent（前缀 agent:*）压缩 → 只跑前两项；后面 7 项被故意跳过，避免子 Agent 自己 compact 一下就把主线程的状态清干净

这条"按调用源裁剪清理范围"的规则是多 Agent 共享进程不可绕开的纪律。

4. Task 一等公民：六种形态共享一个契约

在 Claude Code 里，"执行体"不叫 Agent，叫 Task。这不是命名偏好——这是把"什么样的执行体可以被派出去做事"这件事抽象到协议层的关键决定。

图释：图顶部一条横贯长条标识"统一 Task 契约 · id · 状态 · 工具集 · 输出基板 · 权限 · 取消链"——这是形态六变下唯一不变的协议层。下方六张卡并排展示六种执行体（主会话 s / 本地 Worker a / 远端 Agent r / 本地 Shell sh / 进程内队友 t / Dream d），每张卡内同时给出形态、可见工具集、通讯方式、关键说明四条事实，可以一眼看到差异点（例如本地 Worker 工具集被收紧到 ASYNC_AGENT_ALLOWED 严格子集、Dream 只读、Shell 走 detached PTY）。再下方三条横排底板——公共生命周期状态机、共享任务输出基板、权限与取消平面——是六种形态共用的下层基础设施。

4.1 共享契约的五个组件

不论形态如何，每一个 Task 都满足下面五件事：

唯一 id：按形态前缀编码——s 主会话、a 本地 Worker、r 远端 Agent、sh 本地 Shell、t 进程内队友、d Dream/异步。光看 id 就能知道它在哪种执行环境里跑。
可见工具子集：不是 42 个全开。每种形态都有自己的允许集（详见 §5.2）。
任务输出基板：每个 Task 都把自己的 transcript 软链落盘，活动追踪 / token 用量 / 最近 5 条活动环形缓冲挂在同一份基板上。流式输出直接进基板，协调者只在汇总时去读它，不承担实时转发。
权限声明：permission mode 三档——default / acceptEdits / bypass。权限不是工具自己问，而是 Task 这一层统一拍板。
取消链节点：每个 Task 持有自己的 AbortController，作为取消树的一个内部节点。取消信号沿委派边逐级下沉，子 Task 的取消不会向上爆炸，父 Task 的取消必然到达每个孩子。

4.2 公共生命周期

所有 Task 走同一个状态机——Created → Queued → Running → Producing Output → Stopped / Completed / Failed。这就让一组通用工具（TaskCreate / TaskGet / TaskList / TaskOutput / TaskUpdate / TaskStop）能管所有形态，而不需要为每种形态各写一套。

4.3 六种形态的差异

形态	id 前缀	上下文	关键能力差异
主会话	`s`	完整	与用户直接对话，可被 Ctrl-B 后台化
本地 Worker	`a`	上下文隔离的 forked agent	工具只允许 ASYNC_AGENT_ALLOWED 集合；不能再派 Worker
远端 Agent	`r`	异机隔离	通过 Bridge 长连接 + RemoteTrigger 触发，结果流式回传
本地 Shell	`sh`	一个 detached PTY	长命令托管；stdout 缓冲到任务输出基板
进程内队友	`t`	同会话、对等	通过文件邮箱互相投递；可见工具集是 Worker + 5 个任务/通讯工具
Dream / 异步	`d`	只读	用户空闲时复盘历史，把可沉淀经验写回记忆底座

一个直接推论：协调者把任务从本地"搬到远端"几乎不用改任何上层代码——id 前缀从 a 换成 r，AgentTool / SendMessage / TaskStop 三件工具的语义不变，结果回流仍然是 <task-notification> XML（见 §5.3）。这是"形态六变、契约不变"在工程上的具体兑现。

4.4 子 Agent 的 runtime loop 与主线程共享同一台节拍器

子 Agent（本地 Worker / 进程内队友）并不是另跑一套循环。它复用 §2 描述的同一个 query() async generator——只是 destructure 出来的 State、绑定的 toolUseContext、可见工具子集不同。这意味着：

子 Agent 内部一样有 12 个事件序列，一样有 abortController drain 不变量，一样会触发 AutoCompact 与 Microcompact。
子 Agent 触发的 PostCompact 清理走"裁剪版"——只清掉自己的 microcompact 状态与 contextCollapse 状态，不能清主线程的 userContext / memoryFiles / systemPromptSections（详见 §3.5）。
子 Agent 的 abortController 是父 Task abortController 树上的一个节点；父 Task 取消会沿这条边自动下沉。

换句话说，多 Agent 系统不是多套循环并行跑，而是同一台 runtime 在不同 State 实例上多跑几次。这是 Claude Code 多 Agent 系统能保持工程稳定性的一个根因——任何对主循环的改进都会原子地下发到所有子 Agent。

5. 多 Agent 调度：协调者、Worker、三条通道

多 Agent 系统的瓶颈从来不是"能开多少个 Agent"，而是"Agent 之间的边界能不能守住"。Claude Code 的边界设计有三件事最值得拆开看：协调者的不对称、工具白名单的硬约束、三条通讯通道的语义分工。

图释：协调者（标注 system role: orchestrator · 红线"不直接改文件、不执行脚本"）位于顶层。下方一排四种 Worker 形态（本地 Worker a...001 / a...002、进程内队友 t...003、远端 Agent r...004）通过四件事与它互动：(a) 任务委派——黑色实线，AgentTool / TaskCreate；(b) 结果回流——绿色虚线，TaskOutput；(c) 对等消息——红色虚线，文件系统邮箱（路径 ~/.claude/teams/{team}/inboxes/{agent}.json，含 from / text / timestamp / read / color / summary 六字段，靠 lockfile 与退避重试做并发安全）；(d) 共享记事本 Scratchpad——绿色双向，多 Worker 直接读写，不走权限审批。右侧三条独立卡片把三通道的方向、载体、语义并列写清。底部红字底注重申两条纪律："协调者不是一号 Worker · Worker 不能递归再派 Worker · 任务树始终可回放"。

5.1 协调者的不对称：只发牌不出手

协调者模式由 COORDINATOR_MODE 特性 + 环境变量启用。一旦进入这种模式，协调者只能用 4 件工具：

协调者唯一可用 4 工具	用途
AgentTool	派出新 Worker
SendMessage	给已存在 Worker 发一条续派消息
TaskStop	停掉一个跑偏方向的 Worker
SyntheticOutput	向用户合成最终回答

协调者不能直接读文件、写文件、跑命令、查搜索。它必须把所有动手的事派出去。这条不对称的好处只有在系统跑久了才看得见：

任务树永远两层。Worker 的工具白名单（§5.2）里显式排除了 AgentTool——异步 Worker 不能再派 Worker。两层树天然可回放、可复盘。
角色提示零互染。协调者走 orchestrator 系统提示（强调"先想清楚再派活、不要替 Worker 重述发现、Workers can’t see your conversation"），Worker 走 executor 系统提示（强调"在边界内把事做完、自验证、提交 hash"）。即使背后是同一个模型，两种身份不会漂移。
协调者轻盈。它不持有大文件、不持有 Shell、不进 PostCompact 的高昂注入。这让它能并行盯多个 Worker 而不被任何单个 Worker 的输出流淹没。

5.2 工具白名单：硬约束的真实清单

工具可见性不是按角色"看心情发"，而是三组互斥的明文集合：

集合	包含	角色
ASYNC_AGENT_ALLOWED（异步 Worker 的 15 件）	FileRead / FileEdit / FileWrite / NotebookEdit / Grep / Glob / Shell（多名）/ WebSearch / WebFetch / TodoWrite / Skill / SyntheticOutput / ToolSearch / EnterWorktree / ExitWorktree	异步 Worker 默认能用这一组
IN_PROCESS_TEAMMATE_ALLOWED（进程内队友的额外 5 件）	TaskCreate / TaskGet / TaskList / TaskUpdate / SendMessage（可选 Cron 系列）	在 Worker 集合之上额外开放，让队友互相协调
COORDINATOR_MODE_ALLOWED（协调者的 4 件）	AgentTool / SendMessage / TaskStop / SyntheticOutput	协调者唯一可用

ASYNC_AGENT_ALLOWED 显式排除以下工具，每一条都有明确理由：

AgentTool —— 防止递归 Worker 派 Worker
TaskOutputTool —— 防止递归读取另一个 Task 的输出
ExitPlanMode —— Plan Mode 是主线程抽象
TaskStop —— 需要主线程 Task 状态访问权
MCP / ListMcpResources / ReadMcpResource —— 暂时按 TBD 处理

这份白名单不是文档建议，它由 filterToolsForAgent 在每次工具集组装时实际执行：MCP 工具放行；Plan 模式下 ExitPlanMode 放行；命中 ALL_AGENT_DISALLOWED 一律拒；自定义 Agent 命中 CUSTOM_AGENT_DISALLOWED 拒；isAsync && !ASYNC_AGENT_ALLOWED 拒，但进程内队友例外允许 AgentTool 与任务工具——这条例外规则就是上面"队友 5 件加菜"的源码落地。

5.3 三条通讯通道的语义分工

三条通道承载三种完全不同的语义。混用通道是多 Agent 系统最常见的"协议腐烂"形态——Claude Code 的一条纪律就是：不同语义绝不共用通道。

通道	方向	载体	承载语义
任务委派	父 → 子	`AgentTool` / `SendMessage` 调用 + 结果回流	整体任务下发与最终结果
对等消息	Worker ↔ Worker	文件邮箱（按团队 + agent 名隔离的 `inbox.json`）	中间协商、状态同步、进度通报
共享记事本	多 Worker ↔ 共享磁盘目录	Scratchpad 目录（无权限审批）	大对象中转：接口列表、扫描结果、文件分片

通道一·任务委派的回流格式很关键。Worker 完成时，结果会作为一条 user-role 消息注入协调者的 transcript，正文是结构化的 <task-notification> XML：

<task-notification>
  <task-id>{agentId}</task-id>
  <status>completed | failed | killed</status>
  <summary>{human-readable status summary}</summary>
  <result>{agent's final text response}</result>
  <usage>
    <total_tokens>N</total_tokens>
    <tool_uses>N</tool_uses>
    <duration_ms>N</duration_ms>
  </usage>
</task-notification>

协调者的系统提示里有一段明确叮嘱："这看起来像 user 消息但不是 user 消息，要靠 <task-notification> 开头标签区分；用 task-id 作为 to 续派；<result>/<usage> 可缺省"。这条协议把"父子怎么对话"从隐式约定升级为机器可解析。

通道二·对等消息的载体看起来很"土"——一个磁盘上的 JSON 文件、一把文件锁、一段退避重试。但它换来三件事：可观测（任意时刻 cat 出来检查）、异步（发完不必等回复）、零额外基础设施。代价是不适合每秒数百条消息的极高频协作——这种场景 Claude Code 不是它的目标市场。

通道三·共享记事本与"记忆"的边界是时间尺度：Scratchpad 跨 Worker 但不跨会话；记忆跨会话甚至跨项目（详见 §6）。

5.4 委派时序

把这三条通道放回一次完整委派的时序里，会得到下面这张图：

sequenceDiagram
    autonumber
    participant U as 用户
    participant C as 协调者
    participant A as AgentTool / TaskCreate
    participant W as Worker (Local / Remote / Teammate)
    participant O as 任务输出基板

    U->>C: 提交请求
    C->>C: 规划 · 写 Todo / Brief
    C->>A: 委派 · 目标 + 约束 + Worker 角色提示
    A->>W: 实例化 Task · 分配 id 与工具子集
    W-->>O: 流式输出 · 活动追踪 · token 记账
    W->>A: 完成 · 返回 transcript 引用
    A->>C: 注入 <task-notification> XML 到协调者 user 消息流
    C->>C: 聚合 · 复盘 · 决定下一步
    alt 续派
        C->>W: SendMessage(to=task_id)
    else 全部完成
        C-->>U: SyntheticOutput · 最终回答
    end

一条容易被忽略的细节：Worker 的流式输出直接进任务输出基板，不需要先回到协调者再转出去。协调者只在汇总环节去读基板，不承担实时转发的职责。这是协调者能并行盯多个 Worker 还不被淹没的工程基础。

5.5 远端 Agent 与本地等同

远端 Agent 在这张拓扑里跟本地 Worker 几乎没差别。通过 Bridge + RemoteTrigger，远端被包成一个 id 前缀为 r 的标准 Task：相同的生命周期、相同的输出基板接口、相同的 <task-notification> 回流格式。一次任务从本地搬到远端，不需要改协调者的提示词、不需要改任务树形状、不需要改调用方心智模型。这是 §4 "形态六变、契约不变"在多 Agent 平面上的直接红利。

6. 记忆三分层：可读目录 + 5 槽位选择器

图释：上方三张并列卡片展示三种作用域——个人记忆（私有、跨项目、家目录隐藏目录）/ 团队记忆（按 team 名前缀隔离、组内共享 gotchas）/ Scratchpad（跨 Worker 持久但不跨会话），每卡明示作用域、存储位置、用例、特点四条事实。下方一条横贯长条"相关性召回流水线"展开三段式：① 入口索引 MEMORY.md（双护栏 ≤200 行 / ≤25 KB · 超限先按行裁再按字节裁到最近换行 · 文末追加截断警告 · 直接注入系统提示）→ ② 主题文件阵列（每文件独立、含 frontmatter、按 mtime 记新鲜度、可被选择器按需召回）→ ③ 相关性选择器（Sonnet side-query · 5 槽位预算 · 输入=用户查询+主题 headers+最近使用工具 · alreadySurfaced 排除集 · recentTools 例外规则——gotcha/warning 类必召回 · 空选择也打点）。右侧 MEMORY_SHAPE_TELEMETRY 把选择率、召回噪声等指标长期可观测化。底部一句话总纲："不靠向量靠目录，不靠全量注入靠一次 5 槽位的精确挑选"。

§3 解决了"单次会话内上下文如何不崩"。还有另一个独立问题：跨会话、跨项目、跨人的经验如何沉淀、又如何被调回来？

常见做法是向量库——切块、嵌入、相似度检索。Claude Code 选择了一条反潮流的路径：记忆是一棵可被人类阅读的目录树，召回交给一次小型 LLM 调用而不是相似度函数。

6.1 三分层：按可见边界切分

第一层切分不按内容、按可见边界：

分层	作用域	落地位置	典型内容
个人记忆	私有，跨项目	用户家目录隐藏目录	偏好、快捷指令、个人踩坑教训
团队记忆	团队前缀隔离，组内共享	`~/.claude/teams/{team}/...`	历史遗留问题的修复笔记、规避方法
Scratchpad	跨 Worker，不跨会话	协调者提供的共享目录	本次任务的中间过程物

作用域硬边界换来两件事：边界不漂移（团队记忆不会泄漏到所有项目）、颗粒不失控（Scratchpad 不会沉淀成永久知识）。这是记忆系统的第一道纪律。

6.2 入口索引：带双护栏的 MEMORY.md

记忆目录里不放成百上千篇零散文件。它有一个明确的入口文件 MEMORY.md，被直接注入系统提示——每一轮循环的上下文里都能看到它。

正因为它要常驻系统提示，它必须瘦。两条强制护栏同时生效：

行数上限：≤ 200 行
字节上限：≤ 25 KB

任意一条被触发就启动截断。截断不盲目：先按行裁到 200 行，再按字节裁到最近一个换行位置（避免半行截断），裁完在文末追加一段警告——明文告诉模型"本索引被截断了，把细节挪到主题文件里去"。

这条设计承认了一个真相：索引是系统提示的一部分，它越臃肿越贵，越贵越要被压缩。与其让它悄悄变胖，不如在阈值处强行打一次警示，逼用户或 Agent 把细节搬到主题文件。索引和主题的分工是在护栏驱动下自然演化的。

6.3 主题文件阵列：让细节有自己的家

每个主题一个文件。文件开头有一段 frontmatter（标题、描述、类型）——给召回阶段读的，不是给最终注入读的。文件正文可以写得很详尽：代码示例、来龙去脉、整套决策过程都行。

文件按 mtime 记新鲜度。新鲜度不是排序键，而是告诉模型"这条记忆距今多久了"。陈年记忆被误用为新鲜事实，是所有长期运行 Agent 最容易栽的坑——这条 mtime 信息是兜底。

6.4 相关性选择器：一次 5 槽位的精确挑选

真正让这套目录树升级为"有语义召回能力"的，是相关性选择器。它不是向量匹配，而是一次侧链 LLM 调用：把当前用户请求 + 所有候选主题的 frontmatter + 最近使用过的工具一起喂给一个小 Sonnet 模型，让它挑出至多 5 个主题进入本轮上下文。

这次调用的几个关键约束：

槽位预算硬上限 5。给 10 条与给 5 条相比，前者反而让模型分心；如果一轮真的装不下，留给下一轮继续召回。
alreadySurfaced 排除集。本会话已经露出过的记忆不再重复占用槽位——召回预算应该花在新鲜候选上。
recentTools 过滤规则 + 例外。如果用户刚在用 grep，那么"grep 的 API 文档"类记忆不必召回——Agent 已经在活跃使用它了。但有一条关键例外：关于这个工具的 gotcha / 已知缺陷 / 警告类记忆仍要召回。这条规则区分了"相关性"和"有用性"——一个工具被频繁使用恰恰是它的 warning 最该露面的时刻。
空选择也打点。本轮哪怕一条都没挑上，也记一次空选择事件。这让"选择率"变成可被长期度量的指标——选择率太低、某些主题常年不被召回、header 描述要不要改——这些问题只有空选择被打点时才能被分析。

加上遥测层 MEMORY_SHAPE_TELEMETRY，整套记忆子系统的健康度是可观测、可演化的。

6.5 为什么不走向量？

三条理由都藏在前面的设计里：

可读性比相似度更重要。打开 MEMORY.md 能迅速看见"我的记忆里有什么"；打开向量库只能看一堆浮点数。记忆不只给模型看，也给它的拥有者看。
索引 + 主题二段式天然支持"低注入、按需加载"。索引常驻系统提示，主题懒加载。向量库很难做到这种"选择性可见"。
相关性交给语义模型，比交给相似度函数更贴近人。Sonnet 在理解"工具的 API 文档不必再召回但它的 gotcha 一定要召回"这种微妙规则上，远胜于一个固定相似度公式。

一句话收束：不靠向量靠目录，不靠全量注入靠一次 5 槽位的精确挑选。

7. 四贯穿控件：让 Runtime 在真实世界里活下来

§1 已经把这四件控件挂在了全景图右侧。它们不在任何一层内部，但同时作用于所有层。去掉任何一根，系统在演示场景里能跑，在长跑、出错、被中断、超长任务时会逐步崩塌。

图释：四件控件按 2×2 网格展开。① AbortController · 分层中断：主会话 → 子 Task → 单次工具三级取消树，标注三条不变量（下沉但不上爆 / 父取消必到达孩子 / 取消时 drain in-flight 工具）。② StopHooks · 停顿钩子：三类停止事件（assistant turn 结束 / tool call 结束 / 阶段边界）映射到三种返回模式（观察 / 改写上下文 / preventContinuation 截停）。③ TokenBudget · 三道预算阀：硬窗口 / 工作预算 (effectiveWindow − 13K) / 系统预留 (reservedForSummary = min(modelMaxOutput, 20K))，下方再标注 WARNING/ERROR=20K · BLOCKING=3K · 熔断 ≥3 次。④ CleanupRegistry · 清理登记：样例登记表（PTY · close / FileLock · release / TempConn · disconnect）+ 三条性质（登记幂等 / 执行有序 / 容错执行）+ "任务结束 · 失败 · 取消"触发器。底部金句"去掉任何一根 · Runtime 演示能跑 · 长跑必崩"。

7.1 AbortController · 分层中断

主会话、子 Task、单次工具调用各持一个独立的 AbortController，组成一棵取消树。三条不变量：

用户的 Ctrl-C 落在最外层后，信号沿委派边逐级下沉，每一层都可以挂钩做清理。
子 Task 的取消不会向上爆炸——只影响它自己与它的孩子。
父 Task 的取消必然到达每个孩子。

取消信号被直接挂到流式 callModel 调用上，所以"我按了 Ctrl-C 但模型还在说话"这种情形不存在。drain in-flight 工具结果的兜底（§2 事件 8）确保即使取消，也不会留下任何 orphan tool_use。

7.2 StopHooks · 停顿钩子

每一次"停止事件"都允许钩子介入：

一次 assistant turn 结束
一次 tool call 结束
一次阶段性边界

钩子的三种返回方式：

观察：只记录，不改变流程
改写：在下一轮上下文里插入补充消息或修改已生成内容
拦截：直接 preventContinuation，把循环截停（见 §2 事件 11）

StopHooks 的本质是在不改 Runtime 本体的前提下向外暴露的可编程边界——SDK 用户、企业插件、内部 telemetry 都通过它接入。

7.3 TokenBudget · 三道预算阀

TokenBudget 不是一根硬上限，而是三道分账阀门：

阀门	上限来源	守的东西
硬窗口	`contextWindow(model)`	最后一道墙，破了就直接 API 错误
工作预算	`effectiveWindow − AUTOCOMPACT_BUFFER (13K)`	还能动手做事的余量
系统预留	`reservedForSummary = min(modelMaxOutput, 20_000)`	给摘要请求自身留的输出空间，不可被压缩占用

三道阀让"还要不要动手"和"还要不要想下一步"各自有气口——这是 §3 五级压缩梯子能按侵入性分级的工程前提。

另外存在一条用户可声明的 task budget：在用户输入里写 +500k / use 2M tokens 这类自然语言时，系统解析为本次 turn 的 token 目标，并在累计 token < 90% 目标值时主动让模型继续推进；连续 3 轮 token 增量小于 500（收益递减判定）则提前停止。这条机制与"上下文窗口预算"是两个层面，不要混淆——前者是"花多少 token 做完一件事"，后者是"还能放多少 token 进上下文"。

7.4 CleanupRegistry · 清理登记

每一个可能留下"尾巴"的动作都必须把自己的清理动作登记进来：打开的 PTY、持有的文件锁、后台派出去的 Task、临时数据库连接……任务结束 / 失败 / 被取消时，登记表被按序执行。三条性质决定了它的强度：

登记幂等：同一动作多次登记只登记一次
执行有序：先登记的有清晰的先后约定
执行容错：单个清理失败不阻塞剩余动作

这一点决定了整个 Runtime 的失败语义从"靠语言运行时 GC 赌人品"升级成了"可幂等、可重放"——这是长跑系统不可绕开的工程基础设施。

8. 设计哲学、代价与适用边界

前面七章把 Claude Code Runtime 拆到了零件。最后一章只做两件事：把零件背后的设计哲学浓缩成可复用的工程原则，再坦白这套设计在哪些场景不适合。

8.1 五条可复用的设计哲学

一 · Task 一等公民。不定义"什么是 Agent"，把所有执行体抽象成 Task。共享 id / 工具子集 / 输出基板 / 取消链四件契约，形态在协议层之外可任意切换。委派策略与执行环境因此完全解耦，"任务从本地搬到远端"变成一次 id 前缀变更而非系统级改造。

二 · 压缩即梯子。把窗口管理从"一次摘要"换成"一条阶梯"。从 SessionMemory 的 IO 级零损失，到 Reactive 的事件驱动局部裁剪，到 Microcompact 的白名单工具结果清扫，到 Full Compact 的 forked agent 摘要 + 50K 注入预算，到 Context Collapse 的最小骨架兜底——每一级都比上一级多放弃一点、但比粗暴摘要少损失很多。先尝试最轻、扛不住才抬升侵入性。

三 · 三通道各司其职。父子委派走 AgentTool；兄弟协作走文件邮箱；共享中间过程物走 Scratchpad。不同语义绝不共用通道。这是 Claude Code 多 Agent 系统能跨多 Worker 跑久而不腐烂的协议基础。

四 · 协调者不对称。规划、委派、汇总归协调者；动手归 Worker。协调者唯一可用 4 工具；Worker 工具白名单显式排除 AgentTool 阻断递归。任务树永远两层——这是可观测、可回放、可复盘的工程前提。

五 · 记忆是可读目录 + 语义选择器。不走向量，走可被人类阅读的目录树和一次 5 槽位 Sonnet 召回。200 行 / 25 KB 的 MEMORY.md 双护栏让索引被动瘦身；recentTools gotcha 例外这种微妙规则交给语义模型而不是相似度公式；空选择也打点让选择率长期可观测。

这五条放在一起看，会发现它们指向同一个母题：把人的纪律显式刻进 Runtime。Task 一等公民是"不要给自己留技术债"；压缩梯子是"让步要分级"；三通道是"不同话不要混着说"；协调者不对称是"规划与执行分开"；记忆可读是"系统也要被它的拥有者读懂"。

8.2 三条必须如实承认的代价

心智负担。六层叠层 + 四贯穿控件 + 五条哲学，理解它至少要在脑子里同时装着六个独立平面 + 四个控件。对想要快速上手的用户来说，这比"一个大 Prompt + 一堆工具"的简单框架门槛高。它的优势要在系统跑过几周、任务开始堆叠、跨会话复盘成为日常之后才显现。

文件邮箱的并发上限。对等消息走文件系统而不是 RPC，胜在可观测、异步、零额外基础设施。代价是不适合每秒数百条消息的极高频协作——这种场景会把文件锁退避机制打满。

Sonnet 选择器的额外开销。每次召回都要调用一次小 Sonnet 做 5 槽位挑选。比向量检索略贵、响应略慢；换来更精确的相关性与更少的召回噪声。对一次性轻量问答场景，这是过度设计。

8.3 适用与不适用的边界

不适合：

单轮短问答 / 一次模型推理 + 一两次工具调用就结束的任务——这套 Runtime 的大多数平面都会闲置。
极高频 Worker 间消息（每秒数百条以上）——文件邮箱的目标市场不在这里。
一次性轻量 RAG 场景——Sonnet 选择器的开销不划算。

适合：

长周期工程型任务：跨天的代码迁移、跨多个 session 的 bug 追踪、跨团队的知识沉淀。
需要可回放、可观测、可复盘的协作场景：任务树永远两层、每条父子边都走显式 <task-notification>、每次压缩都有钩子前后快照、每次记忆召回都被打点。
需要在长时间内持续演化"工程经验"的团队：MEMORY.md 双护栏 + 主题文件 + Sonnet 选择器构成一个可活的知识子系统。

8.4 一句话收束

Runtime 是 Agent 系统的骨头，不是 Prompt 工程，不是工具列表。Agent 框架的竞争终将从"我有多少工具、我能装多少 MCP"走向"我的 Runtime 有没有纪律、我的任务能不能被回放、我的记忆能不能演化"——而 Claude Code 这套六层叠层 × 四贯穿控件 × 五级压缩梯子 × 三通道通讯的骨骼，是在这条新赛道上一份扎实的参考实现。

打赏