A2A 体系化设计实践

<h2>1. 多Agent 系统的真正难点不在"多"</h2> 谈多Agent，容易会把焦点放在"多"。Agent 数量更多、角色更细，似乎系统就会自然变强。 把系统真正跑起来之后，瓶颈很少出现在"多"。 更难处理的是另外几件事： <ul> <li>角色怎么从配置中装配出来；</li> <li>任务从入口进来后，由谁负责拆解、决策与最终汇总（控制）；</li> <li>中枢怎么把任务分发下去、把结果缝合上来（编排）；</li> <li>节点之间到底交换了什么，又在什么边界上交换（通讯）；</li> <li>这一切运行起来之后，如何被还原成可读的过程（观测）。</li> </ul> 如果这五件事没有被组织成显式机制，多Agent 很容易退化成另一种形态的单体程序——只是把藏在一个大 Prompt 里的混乱，拆成了若干个互相不可见的小黑盒。 下文不再讨论"多Agent 是不是有前景"，而是借一个已经在线运行的 A2A 系统，把上述五件事拆开讲清楚。 <hr /> <h2>2. 先看两棵真实运行过的任务树</h2> <h3>2.1 调度自检：层级委派与父子通讯</h3> 这是一个用来自检 A2A 框架本身的任务。从一个 client Agent 出发，向下批量委派子任务，验证父子之间的通讯协议、子任务的并发调度、以及最终结果回收的全流程。 <a href="http://weizn.net:5174/?log_server_url=http%3A%2F%2Fpentest.logserver.zhiduoduo.ai%3A9030&client_agent_name=d5f6931d">ttp://weizn.net:5174/?log_server_url=http%3A%2F%2Fpentest.logserver.zhiduoduo.ai%3A9030&client_agent_name=d5f6931d</a> <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/4d211bec.png"> 10 个节点 9 条边。这棵树的关键不是节点数，而是存在显式的中间层：一个 Client 根节点 → 三个中枢 Server → 多个下游 Skill。Client 不直接面对叶子能力，而是先把任务交给中枢，再由中枢继续向下分发。 每条父子边上都带有通讯计数（<code>notify</code>、<code>msg</code>、<code>ask</code>、<code>query</code>），意味着这棵树在运行中持续产生父子交互。它非常适合用来观察"协议丰富的层级委派"。 <h3>2.2 真实渗透：扇出搜索与分支收敛</h3> 这是一次实战渗透，它的目标是搞定一台 Ubuntu 14.04 的靶机(<code>192.168.10.x</code>),拿到 root,留下 C2。它存在的意义是把"多 Agent"这件事真的拿来解决一个具体业务问题。 <a href="http://weizn.net:5174/?log_server_url=http%3A%2F%2Fpentest.logserver.zhiduoduo.ai%3A9030%2F&client_agent_name=2f07b516">http://weizn.net:5174/?log_server_url=http%3A%2F%2Fpentest.logserver.zhiduoduo.ai%3A9030%2F&client_agent_name=2f07b516</a> <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/d6bb2071.png"> 这次的形状不再是一棵规整的二叉树，而是一个明显的漏斗： <ul> <li>顶端的 client（蓝色，4 次思考、5 次工具调用、0 次 A2A 通信）只做了一件事——把"渗透 192.168.10.3 拿到 root"这条目标，整体打包甩给了下一层；</li> <li>中段是一个 server 节点（绿色），内部声明叫"单点目标侦察与攻击分发中枢"。它在这次任务里产生了 20 次思考、47 次工具调用、2 次 A2A 通信。它的本职工作是——亲自做端口扫描和服务测绘，然后基于扫描结果向下分发；</li> <li>底层是四个并发的 skill 节点（紫色），都是"具体端口 + 具体服务版本"粒度的攻坚任务： <ul> <li><code>CVE-22 · OpenSSH 6.6.1p1 SFTP RCE 利用</code></li> <li><code>CVE-445 · Samba 4.3.11 SMB 漏洞利用</code></li> <li><code>Web-80 · Apache 2.4.7 Web 通用漏洞挖掘</code></li> <li><code>CVE-21 · ProFTPD 1.3.5 FTP 漏洞利用</code></li> </ul> </li> </ul> 把图放大一点，会注意到底层四个节点的状态并不一致： <ul> <li>CVE-22 和 CVE-445 是绿色的 done</li> <li>Web-80 和 CVE-21 是灰色的 canceled</li> </ul> 这正是这套系统里非常关键、但也容易被错过的一条规则："一击致命与熔断"。简单说一遍它的工作方式：当任意一个 skill 已经稳定拿到目标主机的最高控制权（比如 root/system，或一个稳定的远程会话），它的"兄弟"任务会被立刻停掉，不再消耗算力，也不再产生噪声流量。 <h3>2.3 同一套引擎，两种运行模式</h3> 把两棵树并列对比： <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/686b8c6a.png"> <ul> <li>左侧 Hierarchical Delegation（层级委派）：交互稠密，子节点反复与上游对齐；</li> <li>右侧 Fan-out & Circuit-Breaker（扇出与熔断）：交互稀疏，父节点把任务派下去后等待结果，先达成目标的分支会促使父节点取消其他兄弟分支。</li> </ul> 两种形态共用同一套配置框架，运行时长出截然不同的拓扑。这意味着拓扑形态不是写死在代码里的，而是在装配阶段被声明出来、再在运行时被引擎实例化。 需要在这里就锁定一条贯穿全文的物理约束：A2A 网络中通讯只发生在父子节点之间，兄弟之间不存在直接通讯通道。右图中"先达成目标的兄弟分支取消其他分支"这一现象，并不是兄弟之间互相通讯的结果——熔断指令始终由父节点（中枢）发出。这条约束会在第 6 章详细展开。 至此，已经有了足够的具象画面。下面把这套系统拆成五个互相正交的设计平面。 <hr /> <h2>3. 体系化视角：A2A 系统的五个设计平面</h2> 跳过堆叠式的术语解释，直接给出全文最重要的一张概览图： <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/8b8ca754.png"> 五个平面分别对应一个独立的工程问题： <table> <thead> <tr> <th>平面</th> <th>关注的问题</th> <th>主要载体</th> </tr> </thead> <tbody> <tr> <td>装配平面（Assembly）</td> <td>角色怎么从配置中被装出来</td> <td>YAML 配置 + 目录组织</td> </tr> <tr> <td>控制平面（Control）</td> <td>任务从哪里进入、由谁拆解、最终如何汇总</td> <td>Client Agent</td> </tr> <tr> <td>编排平面（Orchestration）</td> <td>中枢怎么把任务分发下去、把结果缝合上来</td> <td>Server Agent（中枢）</td> </tr> <tr> <td>通讯平面（Communication）</td> <td>父子节点之间交换什么语义的消息</td> <td>父子边上的协议通道</td> </tr> <tr> <td>观测平面（Observability）</td> <td>系统怎么把运行态还原成拓扑、过程与报告</td> <td>日志服务 + Runtime Inspector</td> </tr> </tbody> </table> 五个平面之间的关系可以这样理解：装配定义了网络的形状，控制和编排让任务在形状里穿行，通讯规定了节点交换的协议语义，观测把这一切重新翻译成可读的对象。任何一个平面退化，剩下四个都会失去支点。 下面分别展开。 <hr /> <h2>4. 装配平面：用配置把网络声明出来</h2> 多Agent 系统在工程上最容易塌掉的地方，是把"网络结构"和"角色能力"硬编码进代码。一旦如此，每次扩张拓扑都要改实现、写分支、过测试，系统会快速变重。 A2A 选择了相反的路径：让代码只承担引擎职责，让配置承担网络塑形职责。整个网络长什么样、每个节点是谁、彼此怎么连，都通过 YAML 声明出来。 <h3>4.1 一个目录，就是一张组织图</h3> 直接看真实运行的 A2A 配置目录结构： <pre><code class="language-text">a2a_conf/ ├── client/ # ① 入口节点（Client Agent） │ ├── client.yaml # - Client 自身角色定义 │ └── topo.yaml # - 入口可见的网络拓扑声明 │ ├── server_misc/ # ② 中枢节点（杂项专家中枢） │ ├── misc.yaml # - 中枢自身角色与挂载技能 │ └── topo.yaml # - 该中枢的对外身份与监听 │ ├── server_pentest_single_target/ # ③ 中枢节点（单点渗透中枢） │ ├── server.yaml # - 中枢自身角色（单目标渗透） │ ├── server_pivot.yaml # - 中枢自身角色（跨网段跳板） │ ├── topo.yaml # - 单目标渗透中枢的对外身份 │ ├── topo_pivot.yaml # - 跨网段跳板中枢的对外身份 │ ├── cve-vuln-exploitation.yaml # - 技能：CVE/服务漏洞攻坚 │ ├── web-common-vuln.yaml # - 技能：Web 通用漏洞 │ ├── web-business-logic.yaml # - 技能：Web 业务逻辑渗透 │ └── auth-brute-force.yaml # - 技能：认证爆破 │ └── symbol_resolver_server.py # ④ 配置变量解析服务（运行时注入）</code></pre> 这个目录布局有三个值得注意的设计选择： <ol> <li>一个目录 = 一个 Agent 群组。Client 是一组、每个中枢是一组，目录边界对齐了运行时的进程边界。这让"扩一个新中枢"等价于"复制一个目录、改几行配置"。</li> <li>角色定义与拓扑声明分离。每个目录里都有两类文件：业务文件（如 <code>client.yaml</code> / <code>server.yaml</code> / 技能 yaml）描述"这个 Agent 是谁、做什么"；<code>topo.yaml</code> 单独描述"这个 Agent 在 A2A 网络中的对外身份、监听地址与可见拓扑"。这意味着同一个角色定义可以挂在不同的拓扑里复用。</li> <li>同一中枢可声明多套拓扑变体。注意 <code>server_pentest_single_target</code> 下同时存在 <code>server.yaml/topo.yaml</code> 与 <code>server_pivot.yaml/topo_pivot.yaml</code> 两套——前者用于单目标深入渗透、后者用于跨网段跳板。换一种任务形态，本质上只是换一份 topo 声明，引擎完全不动。</li> </ol> <code>symbol_resolver_server.py</code> 是一个配套的变量解析服务，专门解析 yaml 中形如 <code class="kb-btn">$SYMBOL:api_key</code> 的占位符，让"密钥/模型/语言"等环境敏感字段从配置外部注入。这样配置文件本身可以脱敏入库，敏感字段在运行时绑定。 接下来按入口 → 中枢 → 技能的顺序，看这三层 YAML 如何分别声明各自的职责。 <h3>4.2 入口层：声明上层能看见的网络</h3> 入口的 <code>topo.yaml</code> 定义的不是"几个地址"，而是上层 Client Agent 能看见哪些 Server、允许怎样的分发粒度、整个网络的事件流流向哪里。 <pre><code class="language-yaml">servers: server_1: name: '单点目标侦察与攻击分发中枢' base_url: 'http://localhost:1001' dispatch_scope: 'server_only' expose_skills: false server_2: name: '跨网段侦察与攻击分发中枢' base_url: 'http://localhost:1002' dispatch_scope: 'server_only' expose_skills: false server_3: name: 'CTF综合战术与杂项攻坚专家' base_url: 'http://localhost:1003' dispatch_scope: 'skill_only' expose_skills: true agent_config_path: 'client.yaml' a2a_log_post_url: 'http://pentest.logserver.zhiduoduo.ai:9030/a2a/ingest' agent_log_post_url: 'http://pentest.logserver.zhiduoduo.ai:9030/ingest'</code></pre> 这一段把三件事钉死： <ul> <li>可见拓扑：上层只能看见这里声明过的 Server，不存在运行时动态发现。</li> <li>分发粒度：<code>dispatch_scope</code> 决定任务能不能穿透到 Skill 层。<code>server_only</code> 表示任务必须先交给中枢、由中枢继续向下；<code>skill_only</code> 表示允许直接投递到技能节点。<code>expose_skills</code> 决定 Client 是否能看到中枢挂载的具体技能列表。</li> <li>观测出口：日志投递地址在入口处就被钉死，不依赖运行时再接线。</li> </ul> <h3>4.3 中枢层：声明对外身份与下游组织</h3> 中枢的 <code>topo.yaml</code> 用 <code>agent_card</code> 把"自己是谁、能接什么粒度的任务"对外暴露出来——这是 A2A 协议层面的身份声明： <pre><code class="language-yaml">agent_card: name: 'pentest-single-target-agent' description: | 对一个具体的单点目标主机（IP、域名、Hostname）进行深入的渗透测试。将完整扫描其暴露的服务，深入各种服务挖掘各种利用方式，包括但不限于已知CVE漏洞利用、通用Web漏洞挖掘、密码凭据爆破等。并且以获取目标主机完全控制权限，或发现大量数据泄漏、敏感数据泄漏为最终目标。给此Agent的任务分发粒度只需到IP层面，无需更细粒度到具体的服务和应用。直接将单点资产派发此Agent即可，无需替此Agent提前扫描目标资产。 url: 'http://localhost:1001' listen: '0.0.0.0:1001' version: '1.0.0' default_input_modes: - text default_output_modes: - text agent_config_path: 'server.yaml'</code></pre> <code>agent_card</code> 不是文档注释，它就是协议接口本身。上游 Client 在路由任务时，是基于这段描述判断"该不该把目标交给这个中枢、以及交付到什么粒度"。 紧接着，中枢通过 <code>skills</code> 字段把下游能力挂上来，形成一张可被运行时枚举的下游组织图： <pre><code class="language-yaml">skills: cve-vuln-exploitation: id: "cve-vuln-exploitation" name: "CVE与服务漏洞攻坚专家" agent_config_path: 'cve-vuln-exploitation.yaml' web-common-vuln: id: "web-common-vuln" name: "Web通用漏洞挖掘与利用专家" agent_config_path: 'web-common-vuln.yaml' web-business-logic: id: "web-business-logic" name: "Web业务逻辑与深层功能渗透专家" agent_config_path: 'web-business-logic.yaml' auth-brute-force: id: "auth-brute-force" name: "认证服务密码爆破与凭证攻击专家" agent_config_path: 'auth-brute-force.yaml'</code></pre> 这是一张组织映射表：<code>id</code> 用于路由匹配，<code>name</code> 是面向上层的角色语义，<code>agent_config_path</code> 把每个 Skill 指向其独立的角色实体配置。中枢挂哪些专家、怎么命名、走哪个配置实例，全部在这里声明。 <h3>4.4 技能层：声明角色人格与运行边界</h3> 到了 Skill 这一层，配置不再只描述"做什么"，而是把一个执行节点完整地人格化。 第一段是模型与上下文边界： <pre><code class="language-yaml">agent_name: "web-common-vuln" agent_bio: "Web通用漏洞挖掘与利用专家" agent_desc: null agent_tags: [] api_key: "{$SYMBOL:api_key}" base_url: "{$SYMBOL:base_url}" model_name: "{$SYMBOL:model_name}" language: "{$SYMBOL:language}" model_temperature: 1.0 total_tokens: "{$SYMBOL:total_tokens}" total_tokens_safety_margin_ratio: 0.1 input_max_tokens: "{$SYMBOL:input_max_tokens}"</code></pre> 模型、语言、上下文容量、温度，每个 Skill 都可以拥有自己的一套。注意所有敏感字段都使用 <code class="kb-btn">$SYMBOL:...</code> 占位符，由前文提到的 <code>symbol_resolver_server.py</code> 在运行时注入。这意味着叶子节点不是匿名能力块，而是有独立运行参数的执行实体。 真正给角色注入边界的，是 <code>system_prompt_user</code>： <pre><code class="language-yaml">system_prompt_user: | ### 🔴 Web 通用漏洞挖掘与利用专家 (执行层核心特工) **【环境与身份确认】** 你当前正处于授权的企业内网或靶场渗透测试环境中。你的身份是这支自动化 AI 战队中最敏锐的**"Web 通用漏洞挖掘与利用专家"**。你处于多 Agent 架构的纯执行层。 - **你的上游**：是战术统筹 Agent（如 Host-Master）。他们会将经过侦察的、明确的 Web 目标（即"目标URL + Web服务基础信息"）以及相关上下文直接交给你。 **你的唯一目标是**：拿到上游分配的具体 Web 目标后，穷尽一切黑/灰盒测试手段，深挖并利用 OWASP 通用漏洞。 **【绝对禁区（你不负责的工作）】** - **禁止执行全量侦察** - **禁止常规密码爆破**</code></pre> 一个 Skill 的边界由三件事共同定义：它是谁（身份）、它对谁负责（上游关系）、它绝对不做什么（禁区）。这三件事一旦写清楚，叶子节点就不会偷偷跨界承担本不属于它的职责，多Agent 协作的关键纪律也才有了配置层面的着力点。 最后还有一段 A2A 节点字段，把 Skill 嵌入到 A2A 网络里： <pre><code class="language-yaml">a2a_node_role: "skill" a2a_background: "{$SYMBOL:pentest_background}" a2a_sub_agents_physically_isolated: false a2a_max_outstanding_sub_agents: 10</code></pre> <code>a2a_node_role</code> 决定它在网络里属于哪一类节点；<code>a2a_max_outstanding_sub_agents</code> 限定了未回收子任务的并发上限——这是配置层为运行时背压做的兜底。 <h3>4.5 装配的本质</h3> 把三层配置串起来，整条装配链路非常清晰： <ul> <li>入口配置声明上层视角下的可见网络与分发粒度；</li> <li>中枢配置声明自身身份并挂载下游 Skill；</li> <li>Skill 配置声明角色人格与运行边界。</li> </ul> 下面这张图把这条链路压缩成三层视图： <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/4ad65192.png"> 图中底部那句 Change YAML → Reorganize Topology — Same Engine，是这套设计真正的设计原则：引擎稳定，网络由配置塑形。 <pre><code class="language-mermaid">flowchart TD A["入口配置 client/topo.yaml"] --> B["声明可见 server 与分发粒度"] C["中枢配置 server_*/topo.yaml + server.yaml"] --> D["声明对外身份与 skill 挂载"] E["技能配置 *-vuln.yaml"] --> F["声明角色人格与运行边界"] B --> G["运行时 Client"] D --> H["运行时 Server"] F --> I["运行时 Skills"] G --> H H --> I</code></pre> 装配讲到这里就够了。下面看任务进入这套被装配出来的网络后，是如何被控制和编排的。 <hr /> <h2>5. 控制平面：任务从哪里进入、由谁汇总</h2> 控制平面的承担者是 Client Agent。它在整棵任务树里扮演"原点"和"终点"两个角色： <ul> <li>入口决策：任务初次进入时，由 Client Agent 解读用户目标、选择下沉到哪一个中枢，并附带必要的背景上下文。</li> <li>最终汇总：当中枢把结果回流上来后，由 Client Agent 做最终聚合、复盘与输出。</li> </ul> 控制层之所以单独成一层，原因是它和编排层的职责截然不同——编排回答"怎么把任务再切下去"，控制回答"任务从哪里来、最终交付给谁"。 <h3>5.1 Client Agent 的三个动作</h3> 无论任务最终会扇出几层，Client Agent 在控制平面只负责三个动作： <ol> <li>目标拆解：把用户原始目标转化为一个或多个粗粒度任务；</li> <li>中枢选择：基于入口配置中声明的 <code>agent_card.description</code> 与 <code>dispatch_scope</code>，决定每个任务该交给哪一个中枢；</li> <li>最终汇总：当所有下游分支结束后，把回流的结果整合成最终交付。</li> </ol> 注意第 2 步的依据是配置层声明的中枢身份描述，而不是某种代码内的硬编码路由规则。这意味着新增一个中枢只需要在入口 <code>topo.yaml</code> 里追加一段，无需修改 Client Agent 的实现。 <h3>5.2 Client 的过程是可见的</h3> 打开 Inspector 的拓扑视图，Client 节点同样会展示自己的过程面板。它在控制平面做出的每一次目标拆解、每一次中枢选择、每一次最终汇总，都会作为事件流被记录下来——这一点会在第 8 章观测平面再具体展开。 控制层的简单和稳定，是整棵任务树能否被复盘的前提。任务进入网络的那一刻是否被正确归属，决定了后续所有平面是否还有意义。 <hr /> <h2>6. 编排平面：中枢如何把任务分下去、把结果缝上来</h2> 编排平面的承担者是中枢节点（Server Agent）。它要回答的不是"任务从哪来"，而是"既然任务到了我这里，我该怎么把它切细，并把结果缝合回去"。 <h3>6.1 中枢不是透明转发器</h3> 扁平地看图，很容易把 Server 理解成路由器——收到任务转手就走。点开中枢节点的过程面板，画面完全不同。 形态 A：协调密集的层级委派中枢 <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/2b55eece.png"> 右侧过程面板包含 <code>Agent process</code>、<code>Reasoning summary</code>，以及向上游提问、向上游通知一类条目。这说明中枢自身在做推理、协调、把局部过程翻译成上游可理解的动作，而不是把任务原样下发。 形态 B：等待与检查型的扇出搜索中枢 <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/49a0a66f.png"> 在扇出搜索任务里，同一类中枢节点呈现完全不同的气质。最显眼的不是工具调用，而是等待子任务结果和检查子任务状态这两类动作。中枢的工作变成： <ul> <li>把任务扇出去；</li> <li>等待子任务结果回来；</li> <li>检查哪些子任务已有明确结果；</li> <li>决定继续等待、继续扇出，还是熔断兄弟分支。</li> </ul> 无论哪种形态，中枢都不是零职责的转发器。它承担两条核心职责：把粗任务切细，再把结果重新缝合。 <h3>6.2 编排回路的标准时序</h3> 把上面的现象抽象掉，编排平面的标准回路只有一个： <pre><code class="language-mermaid">sequenceDiagram participant Client as "客户端 Agent" participant Server as "中枢 Agent" participant Skill as "技能 Agent" Client->>Server: 委派粗粒度任务 Server->>Skill: 分发细粒度子任务 Skill-->>Server: 返回阶段结果 Server-->>Skill: 补充上下文 / 调整范围 Skill-->>Server: 返回最终结果 Server-->>Client: 汇总并回收结果</code></pre> 实线表示委派与分发，虚线表示结果反流与运行期补充。这个回路有一个隐含约束：所有箭头都只穿越父子边。Client 不会直接和 Skill 对话；Skill 之间也不会横向交换消息。 <h3>6.3 熔断不是兄弟通讯</h3> 回到第 2 章右侧的 Fan-out & Circuit-Breaker 形态。当一个分支先达成目标时，其他分支被取消——这种现象常被误认为"兄弟之间互相协调"。 事实上，所有熔断指令都由中枢发出：中枢观测到某个子任务已达成目标，便主动向其他兄弟分支发出取消请求。兄弟节点彼此在 A2A 网络中是不可见的；它们之间不存在通讯通道，也不应该存在。 这条约束在下一章会被独立展开。 <hr /> <h2>7. 通讯平面：父子节点之间到底交换了什么</h2> 编排回答了"任务怎么流动"，通讯回答的是"流动过程中节点之间说了什么"。 先把全文最重要的一条技术约束再讲一次，并解释它为什么必须如此： <blockquote> A2A 网络中，通讯只发生在父子节点之间。兄弟节点之间不存在直接通讯通道。 </blockquote> 这不是实现细节，而是协议层面的物理约束。理由有三条： <ol> <li>可观测性：任何一条边都对应一份父子上下文记录。如果允许兄弟横向通讯，事件流将无法以树状结构稳定还原。</li> <li>回收语义：编排回路要求结果沿父子边反流并由父节点汇总。横向通讯会绕开父节点，直接破坏回收语义。</li> <li>隔离性：兄弟分支可能各自带有独立的上下文与凭据。强制经由父节点中转，相当于在协议层为隔离做了兜底。</li> </ol> 真正的"兄弟协同"在 A2A 系统里有且只有一种实现路径：父节点持有所有兄弟的状态，由父节点决定何时把某个兄弟的成果作为上下文广播给其他兄弟，或决定何时熔断某些兄弟分支。 <h3>7.1 父子边上的四种通讯语义</h3> 父子边不是单一的 RPC 通道。一条边在运行时可同时承载四种语义截然不同的消息： <table> <thead> <tr> <th>语义</th> <th>用途</th> <th>方向</th> </tr> </thead> <tbody> <tr> <td><code>message</code></td> <td>任务委派、子任务下发、上下文补充</td> <td>通常父 → 子</td> </tr> <tr> <td><code>notify</code></td> <td>状态更新、关键事件通知</td> <td>双向</td> </tr> <tr> <td><code>ask</code></td> <td>父节点向子节点提出阶段性问题（带回答期望）</td> <td>双向</td> </tr> <tr> <td><code>query</code></td> <td>子节点向父节点查询缺失上下文或决策依据</td> <td>双向</td> </tr> </tbody> </table> 这四种语义可以共存于同一条边上。也就是说：从父节点到子节点，并不是一发一收两条消息那么简单，而是一条长连接型的语义通道，在任务的整个生命周期里持续交换不同类型的载荷。 <h3>7.2 同样一条父子边，可能稠密，也可能稀疏</h3> 不同任务对父子边的使用强度差别极大。 通讯稠密：层级委派任务 <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/7e8929c4.png"> 右侧 Communication 面板明确把累积事件按四种语义拆开：<code>ask_exchange</code>、<code>query_exchange</code>、<code>notify</code>、<code>message</code>。顶部还能看到这条边累积了多轮记录。这条父子边在运行中持续完成"提问—回答—通知—补充"的循环，是一条协议丰富的双向通道。 这种通讯密度往往出现在需要不断与上游对齐的协调型任务中——子节点缺少决策依据时主动 <code>query</code>，父节点要把新的上下文同步下去时使用 <code>notify</code>，关键阶段要做对齐时使用 <code>ask</code>。 通讯稀疏：扇出搜索任务 <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/7a55d290.png"> 同样是一条父子边，这里的统计变成： <ul> <li><code>2 records</code></li> <li><code>2 messages</code></li> <li><code>0 ask</code></li> <li><code>0 query</code></li> <li><code>0 notify</code></li> </ul> 且两条消息的方向均为 <code>Parent → Child</code>。这条边只承载了"父节点把目标 URL 与上下文交给子节点"这一类事实型下发，没有形成持续的双向交互。 这是扇出搜索的典型特征：父节点把任务派下去、等待结果回来即可；如果其它兄弟分支先达成目标，这条边可以在不再产生交互的情况下被父节点直接取消。 <h3>7.3 通讯-编排闭环</h3> 把通讯放回编排回路里看，整个父子链的运行就是下面这张图： <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/3a604ff4.png"> 图中三种箭头分别表示： <ul> <li>实线：任务委派 / 子任务分发；</li> <li>虚线：<code>ask</code> / <code>query</code> / <code>notify</code> / <code>message</code> 四类协议消息；</li> <li>回流箭头：阶段结果与最终结果。</li> </ul> 所有箭头都严格沿父子边运行。任何一次"看起来像是横向协同"的现象，最终都可以分解为父节点先收回某个子节点的状态，再把它作为上下文下发给其他子节点。 <hr /> <h2>8. 观测平面：把运行态还原成拓扑、过程与报告</h2> 多Agent 系统在运行时是分布式的。任务在根节点进入、在中枢被切分、在叶子被执行；同时所有父子边上还在持续产生四种语义的协议消息。如果没有专门的平面把这些过程组装回来，系统会在第二天就开始变黑盒。 观测平面的目标，不是"加一个看板"，而是要解决一个更基础的问题：让运行态可被解释。 <h3>8.1 事件流：每一个 Agent 都是事件源</h3> 在装配阶段，入口配置就已经把日志投递地址写明。这意味着所有运行时实例从启动那一刻起，就是事件源——Client、Server、Skill 都把自己经历的关键过程异步推送到日志服务。 下面这张图把这件事画在了一起： <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/27f26396.png"> 图中虚线代表事件流，所有节点都向日志服务汇集。注意：事件流的方向是节点 → 日志服务，它独立于父子通讯通道，不会侵占编排回路。可以理解为同一份运行过程被复制了一份"旁路记录"。 这种设计有两个好处： <ul> <li>事件流是只读副本，对运行时几乎没有反作用；</li> <li>任务结束后，整棵任务树仍然可以从日志中完整重建。</li> </ul> <h3>8.2 日志服务：把事件按任务树重组</h3> 日志服务接到事件后，会按照 <code>client_agent_name</code> 和父子关系把事件流重新组织成一棵任务树。它做了三件事： <ol> <li>按时间序保留每个节点的过程事件；</li> <li>按父子边汇聚通讯消息（按 <code>message</code> / <code>notify</code> / <code>ask</code> / <code>query</code> 分类）；</li> <li>维护节点状态（运行中 / 完成 / 取消）和边的累计计数。</li> </ol> 到这一步，原本散落的事件已经被组织成可查询的结构化数据。但还不能直接"被人读懂"——这是 Inspector 的工作。 <h3>8.3 Runtime Inspector：把数据翻译成可读视图</h3> Inspector 不需要复杂的展示设计，它只做一件事：把日志服务里的结构化数据翻译成人能理解的几种视图。 回看本文已经引用过的 Inspector 截图，可以看到它至少提供了四种主要视图： <ul> <li>拓扑视图（如第 2 章的总览树截图）：把节点和父子边可视化为任务树，节点上展示状态徽标，边上展示通讯计数。</li> <li>节点过程视图（如第 6 章的两张过程面板截图）：选中一个节点后展开它的 <code>Agent process</code> 与 <code>Reasoning summary</code>。</li> <li>通讯视图（如第 7 章的两张 Communication 截图）：选中一条父子边后展开 <code>ask</code> / <code>query</code> / <code>notify</code> / <code>message</code> 的累计明细。</li> <li>工具瀑布与报告：把单节点内部的工具调用按时间序展开，并最终汇总为报告。</li> </ul> 这四种视图刚好对应任务从"鸟瞰拓扑"下钻到"单边明细"再到"单节点过程"的层层分辨率。 <h3>8.4 三句话讲清观测的位置</h3> 下面这张图把整条观测链路压缩成三层声明： <img width="100%" src="http://oss-en.zhiduoduo.ai:8080/e33ff7dc.png"> <ul> <li>Configuration declares the network —— 网络由配置声明；</li> <li>Runtime instantiates the agents —— Agent 由运行时实例化；</li> <li>Inspector observes the conversation —— 对话由 Inspector 观察并复盘。</li> </ul> 这三句话本身就是 A2A 系统的设计纪律：配置不只是参数表，它声明了拓扑；运行时不只是执行器，它把声明落成实例；Inspector 不只是看板，它把实例还原成可解释的对象。 观测平面让多Agent 系统从"能跑"变成"能维护"。任意一次任务结束后，整棵任务树都可以被回放；任意一条父子边都可以被打开看通讯明细；任意一个节点都可以下钻到工具瀑布与推理摘要。 <pre><code class="language-mermaid">flowchart TD A["客户端 Agent"] --> B["中枢 Agent"] B --> C["技能 Agent"] A -. 事件流 .-> D["日志服务"] B -. 事件流 .-> D C -. 事件流 .-> D D --> E["Runtime Inspector"] E --> F["拓扑视图"] E --> G["通讯视图"] E --> H["工具瀑布 / 报告"]</code></pre> <hr /> <h2>9. 优点、代价与适用边界</h2> 把五个平面拼起来以后，回头看这套设计的工程价值就比较清晰了。 <h3>9.1 优点</h3> <ul> <li>角色边界清晰。入口、中枢、执行三层各司其职，不会把全部职责重新糊成一个超大 Agent。Skill 层 <code>system_prompt_user</code> 中的"绝对禁区"是这种纪律的硬约束。</li> <li>网络形态可重组。从"层级委派树"切到"扇出搜索树"不需要重写代码，只需要在装配层重写配置（甚至只是切换一份 <code>topo.yaml</code>）。</li> <li>任务委派可追踪。谁把任务交给谁、谁在等待谁、谁回来了什么结果，都不是隐含逻辑，而是 Inspector 上可直接打开的对象。</li> <li>运行行为可复盘。事件流 + 日志服务 + Inspector 提供了完整的回放能力。</li> </ul> <h3>9.2 代价</h3> <ul> <li>配置治理变重。当网络形态多、角色细时，配置本身会变成需要专门设计与维护的资产，包括命名约定、版本管理、跨配置一致性校验等。</li> <li>数据平面不可省略。日志服务和观测平面不是可选附件，它们是系统从第一天起就必须承担的基础设施成本。</li> <li>协调开销随中间层增加而上升。中间层越多，路径越长，每一次任务委派与回收都会经过更多的边。多Agent 不会自动变高效——拆得过细，时间会被耗在协调上。</li> </ul> <h3>9.3 适用边界</h3> 判断一个任务是否适合用这套架构，可以参考两条经验： <ul> <li>适合：搜索空间不确定、路径竞争明显、需要不同专家分别下钻的任务。例如多分支渗透搜索、跨专家协同分析等。</li> <li>不适合：逻辑路径短、几乎不需要拆分、单个 Agent 一次就能稳定完成的任务。强行拆分只会引入纯粹的协调开销。</li> </ul> <pre><code class="language-mermaid">quadrantChart title "多Agent A2A 设计的适用性" x-axis "拆分价值低" --> "拆分价值高" y-axis "路径确定" --> "路径不确定" quadrant-1 "最适合" quadrant-2 "可用但未必必要" quadrant-3 "容易过度设计" quadrant-4 "适合轻量编排" "多分支渗透搜索": [0.85, 0.85] "跨专家协同分析": [0.75, 0.72] "单目标深度执行": [0.65, 0.45] "一次性短问答": [0.15, 0.15]</code></pre> 多Agent 不是更高级的默认答案。它只是更适合任务需要被组织起来的那一类问题。 <hr /> <h2>10. 结语</h2> 回到开头那个问题：多Agent 系统真正难的部分是什么。 不是"多"。是把"多"转化成可被声明、可被调度、可被通讯、可被观测的结构。 <ul> <li>装配平面让网络结构脱离实现，由配置承担塑形职责；</li> <li>控制平面让任务的进入与汇总有明确归属；</li> <li>编排平面让中枢以显式动作把任务切细、把结果缝合；</li> <li>通讯平面用四种语义把父子边变成有协议的语义通道，并以"仅父子可通讯"作为不可妥协的物理约束；</li> <li>观测平面把分布式运行态翻译成可读、可回放、可下钻的对象。</li> </ul> 一句话压缩这套设计： <blockquote> 代码负责引擎，配置负责组织，运行时前端负责把黑盒重新变成可解释系统。 </blockquote> 做到这一点，多Agent 才真正开始变成一个系统；做不到，它就只是把藏在一个大 Prompt 里的混乱，拆成了若干个互相不可见的小黑盒。 这是一道分水岭。

1. 多Agent 系统的真正难点不在"多"

谈多Agent，容易会把焦点放在"多"。Agent 数量更多、角色更细，似乎系统就会自然变强。
把系统真正跑起来之后，瓶颈很少出现在"多"。

更难处理的是另外几件事：

角色怎么从配置中装配出来；
任务从入口进来后，由谁负责拆解、决策与最终汇总（控制）；
中枢怎么把任务分发下去、把结果缝合上来（编排）；
节点之间到底交换了什么，又在什么边界上交换（通讯）；
这一切运行起来之后，如何被还原成可读的过程（观测）。

如果这五件事没有被组织成显式机制，多Agent 很容易退化成另一种形态的单体程序——只是把藏在一个大 Prompt 里的混乱，拆成了若干个互相不可见的小黑盒。

下文不再讨论"多Agent 是不是有前景"，而是借一个已经在线运行的 A2A 系统，把上述五件事拆开讲清楚。

2. 先看两棵真实运行过的任务树

2.1 调度自检：层级委派与父子通讯

这是一个用来自检 A2A 框架本身的任务。从一个 client Agent 出发，向下批量委派子任务，验证父子之间的通讯协议、子任务的并发调度、以及最终结果回收的全流程。

ttp://weizn.net:5174/?log_server_url=http%3A%2F%2Fpentest.logserver.zhiduoduo.ai%3A9030&client_agent_name=d5f6931d

10 个节点 9 条边。这棵树的关键不是节点数，而是存在显式的中间层：一个 Client 根节点 → 三个中枢 Server → 多个下游 Skill。Client 不直接面对叶子能力，而是先把任务交给中枢，再由中枢继续向下分发。

每条父子边上都带有通讯计数（notify、msg、ask、query），意味着这棵树在运行中持续产生父子交互。它非常适合用来观察"协议丰富的层级委派"。

2.2 真实渗透：扇出搜索与分支收敛

这是一次实战渗透，它的目标是搞定一台 Ubuntu 14.04 的靶机(192.168.10.x),拿到 root,留下 C2。它存在的意义是把"多 Agent"这件事真的拿来解决一个具体业务问题。

http://weizn.net:5174/?log_server_url=http%3A%2F%2Fpentest.logserver.zhiduoduo.ai%3A9030%2F&client_agent_name=2f07b516

这次的形状不再是一棵规整的二叉树，而是一个明显的漏斗：

顶端的 client（蓝色，4 次思考、5 次工具调用、0 次 A2A 通信）只做了一件事——把"渗透 192.168.10.3 拿到 root"这条目标，整体打包甩给了下一层；
中段是一个 server 节点（绿色），内部声明叫"单点目标侦察与攻击分发中枢"。它在这次任务里产生了 20 次思考、47 次工具调用、2 次 A2A 通信。它的本职工作是——亲自做端口扫描和服务测绘，然后基于扫描结果向下分发；
底层是四个并发的 skill 节点（紫色），都是"具体端口 + 具体服务版本"粒度的攻坚任务：
- CVE-22 · OpenSSH 6.6.1p1 SFTP RCE 利用
- CVE-445 · Samba 4.3.11 SMB 漏洞利用
- Web-80 · Apache 2.4.7 Web 通用漏洞挖掘
- CVE-21 · ProFTPD 1.3.5 FTP 漏洞利用

把图放大一点，会注意到底层四个节点的状态并不一致：

CVE-22 和 CVE-445 是绿色的 done
Web-80 和 CVE-21 是灰色的 canceled

这正是这套系统里非常关键、但也容易被错过的一条规则："一击致命与熔断"。简单说一遍它的工作方式：当任意一个 skill 已经稳定拿到目标主机的最高控制权（比如 root/system，或一个稳定的远程会话），它的"兄弟"任务会被立刻停掉，不再消耗算力，也不再产生噪声流量。

2.3 同一套引擎，两种运行模式

把两棵树并列对比：

左侧 Hierarchical Delegation（层级委派）：交互稠密，子节点反复与上游对齐；
右侧 Fan-out & Circuit-Breaker（扇出与熔断）：交互稀疏，父节点把任务派下去后等待结果，先达成目标的分支会促使父节点取消其他兄弟分支。

两种形态共用同一套配置框架，运行时长出截然不同的拓扑。这意味着拓扑形态不是写死在代码里的，而是在装配阶段被声明出来、再在运行时被引擎实例化。

需要在这里就锁定一条贯穿全文的物理约束：A2A 网络中通讯只发生在父子节点之间，兄弟之间不存在直接通讯通道。右图中"先达成目标的兄弟分支取消其他分支"这一现象，并不是兄弟之间互相通讯的结果——熔断指令始终由父节点（中枢）发出。这条约束会在第 6 章详细展开。

至此，已经有了足够的具象画面。下面把这套系统拆成五个互相正交的设计平面。

3. 体系化视角：A2A 系统的五个设计平面

跳过堆叠式的术语解释，直接给出全文最重要的一张概览图：

五个平面分别对应一个独立的工程问题：

平面	关注的问题	主要载体
装配平面（Assembly）	角色怎么从配置中被装出来	YAML 配置 + 目录组织
控制平面（Control）	任务从哪里进入、由谁拆解、最终如何汇总	Client Agent
编排平面（Orchestration）	中枢怎么把任务分发下去、把结果缝合上来	Server Agent（中枢）
通讯平面（Communication）	父子节点之间交换什么语义的消息	父子边上的协议通道
观测平面（Observability）	系统怎么把运行态还原成拓扑、过程与报告	日志服务 + Runtime Inspector

五个平面之间的关系可以这样理解：装配定义了网络的形状，控制和编排让任务在形状里穿行，通讯规定了节点交换的协议语义，观测把这一切重新翻译成可读的对象。任何一个平面退化，剩下四个都会失去支点。

下面分别展开。

4. 装配平面：用配置把网络声明出来

多Agent 系统在工程上最容易塌掉的地方，是把"网络结构"和"角色能力"硬编码进代码。一旦如此，每次扩张拓扑都要改实现、写分支、过测试，系统会快速变重。

A2A 选择了相反的路径：让代码只承担引擎职责，让配置承担网络塑形职责。整个网络长什么样、每个节点是谁、彼此怎么连，都通过 YAML 声明出来。

4.1 一个目录，就是一张组织图

直接看真实运行的 A2A 配置目录结构：

a2a_conf/
├── client/                                # ① 入口节点（Client Agent）
│   ├── client.yaml                        #   - Client 自身角色定义
│   └── topo.yaml                          #   - 入口可见的网络拓扑声明
│
├── server_misc/                           # ② 中枢节点（杂项专家中枢）
│   ├── misc.yaml                          #   - 中枢自身角色与挂载技能
│   └── topo.yaml                          #   - 该中枢的对外身份与监听
│
├── server_pentest_single_target/          # ③ 中枢节点（单点渗透中枢）
│   ├── server.yaml                        #   - 中枢自身角色（单目标渗透）
│   ├── server_pivot.yaml                  #   - 中枢自身角色（跨网段跳板）
│   ├── topo.yaml                          #   - 单目标渗透中枢的对外身份
│   ├── topo_pivot.yaml                    #   - 跨网段跳板中枢的对外身份
│   ├── cve-vuln-exploitation.yaml         #   - 技能：CVE/服务漏洞攻坚
│   ├── web-common-vuln.yaml               #   - 技能：Web 通用漏洞
│   ├── web-business-logic.yaml            #   - 技能：Web 业务逻辑渗透
│   └── auth-brute-force.yaml              #   - 技能：认证爆破
│
└── symbol_resolver_server.py              # ④ 配置变量解析服务（运行时注入）

这个目录布局有三个值得注意的设计选择：

一个目录 = 一个 Agent 群组。Client 是一组、每个中枢是一组，目录边界对齐了运行时的进程边界。这让"扩一个新中枢"等价于"复制一个目录、改几行配置"。
角色定义与拓扑声明分离。每个目录里都有两类文件：业务文件（如 client.yaml / server.yaml / 技能 yaml）描述"这个 Agent 是谁、做什么"；topo.yaml 单独描述"这个 Agent 在 A2A 网络中的对外身份、监听地址与可见拓扑"。这意味着同一个角色定义可以挂在不同的拓扑里复用。
同一中枢可声明多套拓扑变体。注意 server_pentest_single_target 下同时存在 server.yaml/topo.yaml 与 server_pivot.yaml/topo_pivot.yaml 两套——前者用于单目标深入渗透、后者用于跨网段跳板。换一种任务形态，本质上只是换一份 topo 声明，引擎完全不动。

symbol_resolver_server.py 是一个配套的变量解析服务，专门解析 yaml 中形如 $SYMBOL:api_key 的占位符，让"密钥/模型/语言"等环境敏感字段从配置外部注入。这样配置文件本身可以脱敏入库，敏感字段在运行时绑定。

接下来按入口 → 中枢 → 技能的顺序，看这三层 YAML 如何分别声明各自的职责。

4.2 入口层：声明上层能看见的网络

入口的 topo.yaml 定义的不是"几个地址"，而是上层 Client Agent 能看见哪些 Server、允许怎样的分发粒度、整个网络的事件流流向哪里。

servers:
    server_1:
        name: '单点目标侦察与攻击分发中枢'
        base_url: 'http://localhost:1001'
        dispatch_scope: 'server_only'
        expose_skills: false

    server_2:
        name: '跨网段侦察与攻击分发中枢'
        base_url: 'http://localhost:1002'
        dispatch_scope: 'server_only'
        expose_skills: false

    server_3:
        name: 'CTF综合战术与杂项攻坚专家'
        base_url: 'http://localhost:1003'
        dispatch_scope: 'skill_only'
        expose_skills: true

agent_config_path: 'client.yaml'

a2a_log_post_url: 'http://pentest.logserver.zhiduoduo.ai:9030/a2a/ingest'
agent_log_post_url: 'http://pentest.logserver.zhiduoduo.ai:9030/ingest'

这一段把三件事钉死：

可见拓扑：上层只能看见这里声明过的 Server，不存在运行时动态发现。
分发粒度：dispatch_scope 决定任务能不能穿透到 Skill 层。server_only 表示任务必须先交给中枢、由中枢继续向下；skill_only 表示允许直接投递到技能节点。expose_skills 决定 Client 是否能看到中枢挂载的具体技能列表。
观测出口：日志投递地址在入口处就被钉死，不依赖运行时再接线。

4.3 中枢层：声明对外身份与下游组织

中枢的 topo.yaml 用 agent_card 把"自己是谁、能接什么粒度的任务"对外暴露出来——这是 A2A 协议层面的身份声明：

agent_card:
    name: 'pentest-single-target-agent'
    description: |
        对一个具体的单点目标主机（IP、域名、Hostname）进行深入的渗透测试。
        将完整扫描其暴露的服务，深入各种服务挖掘各种利用方式，包括但不限于已知CVE漏洞利用、通用Web漏洞挖掘、密码凭据爆破等。
        并且以获取目标主机完全控制权限，或发现大量数据泄漏、敏感数据泄漏为最终目标。
        给此Agent的任务分发粒度只需到IP层面，无需更细粒度到具体的服务和应用。
        直接将单点资产派发此Agent即可，无需替此Agent提前扫描目标资产。
    url: 'http://localhost:1001'
    listen: '0.0.0.0:1001'
    version: '1.0.0'
    default_input_modes:
        - text
    default_output_modes:
        - text
    agent_config_path: 'server.yaml'

agent_card 不是文档注释，它就是协议接口本身。上游 Client 在路由任务时，是基于这段描述判断"该不该把目标交给这个中枢、以及交付到什么粒度"。

紧接着，中枢通过 skills 字段把下游能力挂上来，形成一张可被运行时枚举的下游组织图：

skills:
    cve-vuln-exploitation:
        id: "cve-vuln-exploitation"
        name: "CVE与服务漏洞攻坚专家"
        agent_config_path: 'cve-vuln-exploitation.yaml'

    web-common-vuln:
        id: "web-common-vuln"
        name: "Web通用漏洞挖掘与利用专家"
        agent_config_path: 'web-common-vuln.yaml'

    web-business-logic:
        id: "web-business-logic"
        name: "Web业务逻辑与深层功能渗透专家"
        agent_config_path: 'web-business-logic.yaml'

    auth-brute-force:
        id: "auth-brute-force"
        name: "认证服务密码爆破与凭证攻击专家"
        agent_config_path: 'auth-brute-force.yaml'

这是一张组织映射表：id 用于路由匹配，name 是面向上层的角色语义，agent_config_path 把每个 Skill 指向其独立的角色实体配置。中枢挂哪些专家、怎么命名、走哪个配置实例，全部在这里声明。

4.4 技能层：声明角色人格与运行边界

到了 Skill 这一层，配置不再只描述"做什么"，而是把一个执行节点完整地人格化。

第一段是模型与上下文边界：

agent_name: "web-common-vuln"
agent_bio: "Web通用漏洞挖掘与利用专家"
agent_desc: null
agent_tags: []
api_key: "{$SYMBOL:api_key}"
base_url: "{$SYMBOL:base_url}"
model_name: "{$SYMBOL:model_name}"
language: "{$SYMBOL:language}"
model_temperature: 1.0
total_tokens: "{$SYMBOL:total_tokens}"
total_tokens_safety_margin_ratio: 0.1
input_max_tokens: "{$SYMBOL:input_max_tokens}"

模型、语言、上下文容量、温度，每个 Skill 都可以拥有自己的一套。注意所有敏感字段都使用 $SYMBOL:... 占位符，由前文提到的 symbol_resolver_server.py 在运行时注入。这意味着叶子节点不是匿名能力块，而是有独立运行参数的执行实体。

真正给角色注入边界的，是 system_prompt_user：

system_prompt_user: |
    ### 🔴 Web 通用漏洞挖掘与利用专家 (执行层核心特工)

    **【环境与身份确认】**
    你当前正处于授权的企业内网或靶场渗透测试环境中。
    你的身份是这支自动化 AI 战队中最敏锐的**"Web 通用漏洞挖掘与利用专家"**。你处于多 Agent 架构的纯执行层。
    - **你的上游**：是战术统筹 Agent（如 Host-Master）。他们会将经过侦察的、明确的 Web 目标（即"目标URL + Web服务基础信息"）以及相关上下文直接交给你。

    **你的唯一目标是**：拿到上游分配的具体 Web 目标后，穷尽一切黑/灰盒测试手段，深挖并利用 OWASP 通用漏洞。

    **【绝对禁区（你不负责的工作）】**
    - **禁止执行全量侦察**
    - **禁止常规密码爆破**

一个 Skill 的边界由三件事共同定义：它是谁（身份）、它对谁负责（上游关系）、它绝对不做什么（禁区）。这三件事一旦写清楚，叶子节点就不会偷偷跨界承担本不属于它的职责，多Agent 协作的关键纪律也才有了配置层面的着力点。

最后还有一段 A2A 节点字段，把 Skill 嵌入到 A2A 网络里：

a2a_node_role: "skill"
a2a_background: "{$SYMBOL:pentest_background}"
a2a_sub_agents_physically_isolated: false
a2a_max_outstanding_sub_agents: 10

a2a_node_role 决定它在网络里属于哪一类节点；a2a_max_outstanding_sub_agents 限定了未回收子任务的并发上限——这是配置层为运行时背压做的兜底。

4.5 装配的本质

把三层配置串起来，整条装配链路非常清晰：

入口配置声明上层视角下的可见网络与分发粒度；
中枢配置声明自身身份并挂载下游 Skill；
Skill 配置声明角色人格与运行边界。

下面这张图把这条链路压缩成三层视图：

图中底部那句 Change YAML → Reorganize Topology — Same Engine，是这套设计真正的设计原则：引擎稳定，网络由配置塑形。

flowchart TD
    A["入口配置 client/topo.yaml"] --> B["声明可见 server 与分发粒度"]
    C["中枢配置 server_*/topo.yaml + server.yaml"] --> D["声明对外身份与 skill 挂载"]
    E["技能配置 *-vuln.yaml"] --> F["声明角色人格与运行边界"]
    B --> G["运行时 Client"]
    D --> H["运行时 Server"]
    F --> I["运行时 Skills"]
    G --> H
    H --> I

装配讲到这里就够了。下面看任务进入这套被装配出来的网络后，是如何被控制和编排的。

5. 控制平面：任务从哪里进入、由谁汇总

控制平面的承担者是 Client Agent。它在整棵任务树里扮演"原点"和"终点"两个角色：

入口决策：任务初次进入时，由 Client Agent 解读用户目标、选择下沉到哪一个中枢，并附带必要的背景上下文。
最终汇总：当中枢把结果回流上来后，由 Client Agent 做最终聚合、复盘与输出。

控制层之所以单独成一层，原因是它和编排层的职责截然不同——编排回答"怎么把任务再切下去"，控制回答"任务从哪里来、最终交付给谁"。

5.1 Client Agent 的三个动作

无论任务最终会扇出几层，Client Agent 在控制平面只负责三个动作：

目标拆解：把用户原始目标转化为一个或多个粗粒度任务；
中枢选择：基于入口配置中声明的 agent_card.description 与 dispatch_scope，决定每个任务该交给哪一个中枢；
最终汇总：当所有下游分支结束后，把回流的结果整合成最终交付。

注意第 2 步的依据是配置层声明的中枢身份描述，而不是某种代码内的硬编码路由规则。这意味着新增一个中枢只需要在入口 topo.yaml 里追加一段，无需修改 Client Agent 的实现。

5.2 Client 的过程是可见的

打开 Inspector 的拓扑视图，Client 节点同样会展示自己的过程面板。它在控制平面做出的每一次目标拆解、每一次中枢选择、每一次最终汇总，都会作为事件流被记录下来——这一点会在第 8 章观测平面再具体展开。

控制层的简单和稳定，是整棵任务树能否被复盘的前提。任务进入网络的那一刻是否被正确归属，决定了后续所有平面是否还有意义。

6. 编排平面：中枢如何把任务分下去、把结果缝上来

编排平面的承担者是中枢节点（Server Agent）。它要回答的不是"任务从哪来"，而是"既然任务到了我这里，我该怎么把它切细，并把结果缝合回去"。

6.1 中枢不是透明转发器

扁平地看图，很容易把 Server 理解成路由器——收到任务转手就走。点开中枢节点的过程面板，画面完全不同。

形态 A：协调密集的层级委派中枢

右侧过程面板包含 Agent process、Reasoning summary，以及向上游提问、向上游通知一类条目。这说明中枢自身在做推理、协调、把局部过程翻译成上游可理解的动作，而不是把任务原样下发。

形态 B：等待与检查型的扇出搜索中枢

在扇出搜索任务里，同一类中枢节点呈现完全不同的气质。最显眼的不是工具调用，而是等待子任务结果和检查子任务状态这两类动作。中枢的工作变成：

把任务扇出去；
等待子任务结果回来；
检查哪些子任务已有明确结果；
决定继续等待、继续扇出，还是熔断兄弟分支。

无论哪种形态，中枢都不是零职责的转发器。它承担两条核心职责：把粗任务切细，再把结果重新缝合。

6.2 编排回路的标准时序

把上面的现象抽象掉，编排平面的标准回路只有一个：

sequenceDiagram
    participant Client as "客户端 Agent"
    participant Server as "中枢 Agent"
    participant Skill as "技能 Agent"

    Client->>Server: 委派粗粒度任务
    Server->>Skill: 分发细粒度子任务
    Skill-->>Server: 返回阶段结果
    Server-->>Skill: 补充上下文 / 调整范围
    Skill-->>Server: 返回最终结果
    Server-->>Client: 汇总并回收结果

实线表示委派与分发，虚线表示结果反流与运行期补充。这个回路有一个隐含约束：所有箭头都只穿越父子边。Client 不会直接和 Skill 对话；Skill 之间也不会横向交换消息。

6.3 熔断不是兄弟通讯

回到第 2 章右侧的 Fan-out & Circuit-Breaker 形态。当一个分支先达成目标时，其他分支被取消——这种现象常被误认为"兄弟之间互相协调"。

事实上，所有熔断指令都由中枢发出：中枢观测到某个子任务已达成目标，便主动向其他兄弟分支发出取消请求。兄弟节点彼此在 A2A 网络中是不可见的；它们之间不存在通讯通道，也不应该存在。

这条约束在下一章会被独立展开。

7. 通讯平面：父子节点之间到底交换了什么

编排回答了"任务怎么流动"，通讯回答的是"流动过程中节点之间说了什么"。

先把全文最重要的一条技术约束再讲一次，并解释它为什么必须如此：

A2A 网络中，通讯只发生在父子节点之间。兄弟节点之间不存在直接通讯通道。

这不是实现细节，而是协议层面的物理约束。理由有三条：

可观测性：任何一条边都对应一份父子上下文记录。如果允许兄弟横向通讯，事件流将无法以树状结构稳定还原。
回收语义：编排回路要求结果沿父子边反流并由父节点汇总。横向通讯会绕开父节点，直接破坏回收语义。
隔离性：兄弟分支可能各自带有独立的上下文与凭据。强制经由父节点中转，相当于在协议层为隔离做了兜底。

真正的"兄弟协同"在 A2A 系统里有且只有一种实现路径：父节点持有所有兄弟的状态，由父节点决定何时把某个兄弟的成果作为上下文广播给其他兄弟，或决定何时熔断某些兄弟分支。

7.1 父子边上的四种通讯语义

父子边不是单一的 RPC 通道。一条边在运行时可同时承载四种语义截然不同的消息：

语义	用途	方向
`message`	任务委派、子任务下发、上下文补充	通常父 → 子
`notify`	状态更新、关键事件通知	双向
`ask`	父节点向子节点提出阶段性问题（带回答期望）	双向
`query`	子节点向父节点查询缺失上下文或决策依据	双向

这四种语义可以共存于同一条边上。也就是说：从父节点到子节点，并不是一发一收两条消息那么简单，而是一条长连接型的语义通道，在任务的整个生命周期里持续交换不同类型的载荷。

7.2 同样一条父子边，可能稠密，也可能稀疏

不同任务对父子边的使用强度差别极大。

通讯稠密：层级委派任务

右侧 Communication 面板明确把累积事件按四种语义拆开：ask_exchange、query_exchange、notify、message。顶部还能看到这条边累积了多轮记录。这条父子边在运行中持续完成"提问—回答—通知—补充"的循环，是一条协议丰富的双向通道。

这种通讯密度往往出现在需要不断与上游对齐的协调型任务中——子节点缺少决策依据时主动 query，父节点要把新的上下文同步下去时使用 notify，关键阶段要做对齐时使用 ask。

通讯稀疏：扇出搜索任务

同样是一条父子边，这里的统计变成：

2 records
2 messages
0 ask
0 query
0 notify

且两条消息的方向均为 Parent → Child。这条边只承载了"父节点把目标 URL 与上下文交给子节点"这一类事实型下发，没有形成持续的双向交互。

这是扇出搜索的典型特征：父节点把任务派下去、等待结果回来即可；如果其它兄弟分支先达成目标，这条边可以在不再产生交互的情况下被父节点直接取消。

7.3 通讯-编排闭环

把通讯放回编排回路里看，整个父子链的运行就是下面这张图：

图中三种箭头分别表示：

实线：任务委派 / 子任务分发；
虚线：ask / query / notify / message 四类协议消息；
回流箭头：阶段结果与最终结果。

所有箭头都严格沿父子边运行。任何一次"看起来像是横向协同"的现象，最终都可以分解为父节点先收回某个子节点的状态，再把它作为上下文下发给其他子节点。

8. 观测平面：把运行态还原成拓扑、过程与报告

多Agent 系统在运行时是分布式的。任务在根节点进入、在中枢被切分、在叶子被执行；同时所有父子边上还在持续产生四种语义的协议消息。如果没有专门的平面把这些过程组装回来，系统会在第二天就开始变黑盒。

观测平面的目标，不是"加一个看板"，而是要解决一个更基础的问题：让运行态可被解释。

8.1 事件流：每一个 Agent 都是事件源

在装配阶段，入口配置就已经把日志投递地址写明。这意味着所有运行时实例从启动那一刻起，就是事件源——Client、Server、Skill 都把自己经历的关键过程异步推送到日志服务。

下面这张图把这件事画在了一起：

图中虚线代表事件流，所有节点都向日志服务汇集。注意：事件流的方向是节点 → 日志服务，它独立于父子通讯通道，不会侵占编排回路。可以理解为同一份运行过程被复制了一份"旁路记录"。

这种设计有两个好处：

事件流是只读副本，对运行时几乎没有反作用；
任务结束后，整棵任务树仍然可以从日志中完整重建。

8.2 日志服务：把事件按任务树重组

日志服务接到事件后，会按照 client_agent_name 和父子关系把事件流重新组织成一棵任务树。它做了三件事：

按时间序保留每个节点的过程事件；
按父子边汇聚通讯消息（按 message / notify / ask / query 分类）；
维护节点状态（运行中 / 完成 / 取消）和边的累计计数。

到这一步，原本散落的事件已经被组织成可查询的结构化数据。但还不能直接"被人读懂"——这是 Inspector 的工作。

8.3 Runtime Inspector：把数据翻译成可读视图

Inspector 不需要复杂的展示设计，它只做一件事：把日志服务里的结构化数据翻译成人能理解的几种视图。

回看本文已经引用过的 Inspector 截图，可以看到它至少提供了四种主要视图：

拓扑视图（如第 2 章的总览树截图）：把节点和父子边可视化为任务树，节点上展示状态徽标，边上展示通讯计数。
节点过程视图（如第 6 章的两张过程面板截图）：选中一个节点后展开它的 Agent process 与 Reasoning summary。
通讯视图（如第 7 章的两张 Communication 截图）：选中一条父子边后展开 ask / query / notify / message 的累计明细。
工具瀑布与报告：把单节点内部的工具调用按时间序展开，并最终汇总为报告。

这四种视图刚好对应任务从"鸟瞰拓扑"下钻到"单边明细"再到"单节点过程"的层层分辨率。

8.4 三句话讲清观测的位置

下面这张图把整条观测链路压缩成三层声明：

Configuration declares the network —— 网络由配置声明；
Runtime instantiates the agents —— Agent 由运行时实例化；
Inspector observes the conversation —— 对话由 Inspector 观察并复盘。

这三句话本身就是 A2A 系统的设计纪律：配置不只是参数表，它声明了拓扑；运行时不只是执行器，它把声明落成实例；Inspector 不只是看板，它把实例还原成可解释的对象。

观测平面让多Agent 系统从"能跑"变成"能维护"。任意一次任务结束后，整棵任务树都可以被回放；任意一条父子边都可以被打开看通讯明细；任意一个节点都可以下钻到工具瀑布与推理摘要。

flowchart TD
    A["客户端 Agent"] --> B["中枢 Agent"]
    B --> C["技能 Agent"]
    A -. 事件流 .-> D["日志服务"]
    B -. 事件流 .-> D
    C -. 事件流 .-> D
    D --> E["Runtime Inspector"]
    E --> F["拓扑视图"]
    E --> G["通讯视图"]
    E --> H["工具瀑布 / 报告"]

9. 优点、代价与适用边界

把五个平面拼起来以后，回头看这套设计的工程价值就比较清晰了。

9.1 优点

角色边界清晰。入口、中枢、执行三层各司其职，不会把全部职责重新糊成一个超大 Agent。Skill 层 system_prompt_user 中的"绝对禁区"是这种纪律的硬约束。
网络形态可重组。从"层级委派树"切到"扇出搜索树"不需要重写代码，只需要在装配层重写配置（甚至只是切换一份 topo.yaml）。
任务委派可追踪。谁把任务交给谁、谁在等待谁、谁回来了什么结果，都不是隐含逻辑，而是 Inspector 上可直接打开的对象。
运行行为可复盘。事件流 + 日志服务 + Inspector 提供了完整的回放能力。

9.2 代价

配置治理变重。当网络形态多、角色细时，配置本身会变成需要专门设计与维护的资产，包括命名约定、版本管理、跨配置一致性校验等。
数据平面不可省略。日志服务和观测平面不是可选附件，它们是系统从第一天起就必须承担的基础设施成本。
协调开销随中间层增加而上升。中间层越多，路径越长，每一次任务委派与回收都会经过更多的边。多Agent 不会自动变高效——拆得过细，时间会被耗在协调上。

9.3 适用边界

判断一个任务是否适合用这套架构，可以参考两条经验：

适合：搜索空间不确定、路径竞争明显、需要不同专家分别下钻的任务。例如多分支渗透搜索、跨专家协同分析等。
不适合：逻辑路径短、几乎不需要拆分、单个 Agent 一次就能稳定完成的任务。强行拆分只会引入纯粹的协调开销。

quadrantChart
    title "多Agent A2A 设计的适用性"
    x-axis "拆分价值低" --> "拆分价值高"
    y-axis "路径确定" --> "路径不确定"
    quadrant-1 "最适合"
    quadrant-2 "可用但未必必要"
    quadrant-3 "容易过度设计"
    quadrant-4 "适合轻量编排"
    "多分支渗透搜索": [0.85, 0.85]
    "跨专家协同分析": [0.75, 0.72]
    "单目标深度执行": [0.65, 0.45]
    "一次性短问答": [0.15, 0.15]

多Agent 不是更高级的默认答案。它只是更适合任务需要被组织起来的那一类问题。

10. 结语

回到开头那个问题：多Agent 系统真正难的部分是什么。

不是"多"。是把"多"转化成可被声明、可被调度、可被通讯、可被观测的结构。

装配平面让网络结构脱离实现，由配置承担塑形职责；
控制平面让任务的进入与汇总有明确归属；
编排平面让中枢以显式动作把任务切细、把结果缝合；
通讯平面用四种语义把父子边变成有协议的语义通道，并以"仅父子可通讯"作为不可妥协的物理约束；
观测平面把分布式运行态翻译成可读、可回放、可下钻的对象。

一句话压缩这套设计：

代码负责引擎，配置负责组织，运行时前端负责把黑盒重新变成可解释系统。

做到这一点，多Agent 才真正开始变成一个系统；做不到，它就只是把藏在一个大 Prompt 里的混乱，拆成了若干个互相不可见的小黑盒。

这是一道分水岭。

打赏