02-技术架构
整体架构
┌─────────────────────────────────────────────────────────────┐
│ 用户交互层 │
│ (微信助手 / 公众号 / 网页 / API) │
└─────────────────────────┬───────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 多智能体调度层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 任务Agent │ │ 视觉Agent │ │ 操作Agent │ │ 知识Agent │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────────┬───────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 核心能力层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 视觉模型 │ │ 意图理解 │ │ 工具执行 │ │ 知识库 │ │
│ │ (看屏幕) │ │ (拆解任务) │ │ (操作电脑) │ │ (RAG) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────────┬───────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 基础设施层 │
│ (自研模型 / 知识库 / 微信API / 第三方LLM / CDP) │
└─────────────────────────────────────────────────────────────┘
核心能力层详解
1. 视觉模型(看)
负责理解屏幕内容:
- 截图获取
- 视觉编码
- UI元素检测(按钮、输入框、列表)
- 中文UI优化
2. 意图理解(想)
负责理解用户指令:
- 任务拆解
- 执行计划生成
- 动态调整
- 自我纠错
3. 工具执行(做)
负责执行操作:
- CDP / UIAutomation 控制
- 鼠标、键盘操作
- 结果验证
4. 知识库(RAG)
支持私域知识:
- 文档上传
- 向量化存储
- 召回增强
多智能体协作
主Agent(协调者)
├── 视觉Agent → 理解界面
├── 操作Agent → 执行动作
├── 知识Agent → 检索知识库
├── 校验Agent → 结果验证
└── 通信Agent → 微信/通知
技术选型
| 层级 | 技术 |
|---|---|
| 视觉模型 | 自研(非GPT-4V等第三方) |
| LLM | 自研 + 支持第三方接入 |
| 控制层 | CDP / UIAutomation |
| 知识库 | 向量数据库 + RAG |
| 通信 | 微信开放平台 / 企业微信API |