# 02-技术架构 ## 整体架构 ``` ┌─────────────────────────────────────────────────────────────┐ │ 用户交互层 │ │ (微信助手 / 公众号 / 网页 / API) │ └─────────────────────────┬───────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ 多智能体调度层 │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ 任务Agent │ │ 视觉Agent │ │ 操作Agent │ │ 知识Agent │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ └─────────────────────────┬───────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ 核心能力层 │ │ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │ │ │ 视觉模型 │ │ 意图理解 │ │ 工具执行 │ │ 知识库 │ │ │ │ (看屏幕) │ │ (拆解任务) │ │ (操作电脑) │ │ (RAG) │ │ │ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │ └─────────────────────────┬───────────────────────────────────┘ ↓ ┌─────────────────────────────────────────────────────────────┐ │ 基础设施层 │ │ (自研模型 / 知识库 / 微信API / 第三方LLM / CDP) │ └─────────────────────────────────────────────────────────────┘ ``` ## 核心能力层详解 ### 1. 视觉模型(看) 负责理解屏幕内容: - 截图获取 - 视觉编码 - UI元素检测(按钮、输入框、列表) - 中文UI优化 ### 2. 意图理解(想) 负责理解用户指令: - 任务拆解 - 执行计划生成 - 动态调整 - 自我纠错 ### 3. 工具执行(做) 负责执行操作: - CDP / UIAutomation 控制 - 鼠标、键盘操作 - 结果验证 ### 4. 知识库(RAG) 支持私域知识: - 文档上传 - 向量化存储 - 召回增强 ## 多智能体协作 ``` 主Agent(协调者) ├── 视觉Agent → 理解界面 ├── 操作Agent → 执行动作 ├── 知识Agent → 检索知识库 ├── 校验Agent → 结果验证 └── 通信Agent → 微信/通知 ``` ## 技术选型 | 层级 | 技术 | |------|------| | 视觉模型 | 自研(非GPT-4V等第三方)| | LLM | 自研 + 支持第三方接入 | | 控制层 | CDP / UIAutomation | | 知识库 | 向量数据库 + RAG | | 通信 | 微信开放平台 / 企业微信API |