84 lines
4.0 KiB
Markdown
84 lines
4.0 KiB
Markdown
# 02-技术架构
|
||
|
||
## 整体架构
|
||
|
||
```
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 用户交互层 │
|
||
│ (微信助手 / 公众号 / 网页 / API) │
|
||
└─────────────────────────┬───────────────────────────────────┘
|
||
↓
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 多智能体调度层 │
|
||
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
|
||
│ │ 任务Agent │ │ 视觉Agent │ │ 操作Agent │ │ 知识Agent │ │
|
||
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
|
||
└─────────────────────────┬───────────────────────────────────┘
|
||
↓
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 核心能力层 │
|
||
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
|
||
│ │ 视觉模型 │ │ 意图理解 │ │ 工具执行 │ │ 知识库 │ │
|
||
│ │ (看屏幕) │ │ (拆解任务) │ │ (操作电脑) │ │ (RAG) │ │
|
||
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
|
||
└─────────────────────────┬───────────────────────────────────┘
|
||
↓
|
||
┌─────────────────────────────────────────────────────────────┐
|
||
│ 基础设施层 │
|
||
│ (自研模型 / 知识库 / 微信API / 第三方LLM / CDP) │
|
||
└─────────────────────────────────────────────────────────────┘
|
||
```
|
||
|
||
## 核心能力层详解
|
||
|
||
### 1. 视觉模型(看)
|
||
|
||
负责理解屏幕内容:
|
||
- 截图获取
|
||
- 视觉编码
|
||
- UI元素检测(按钮、输入框、列表)
|
||
- 中文UI优化
|
||
|
||
### 2. 意图理解(想)
|
||
|
||
负责理解用户指令:
|
||
- 任务拆解
|
||
- 执行计划生成
|
||
- 动态调整
|
||
- 自我纠错
|
||
|
||
### 3. 工具执行(做)
|
||
|
||
负责执行操作:
|
||
- CDP / UIAutomation 控制
|
||
- 鼠标、键盘操作
|
||
- 结果验证
|
||
|
||
### 4. 知识库(RAG)
|
||
|
||
支持私域知识:
|
||
- 文档上传
|
||
- 向量化存储
|
||
- 召回增强
|
||
|
||
## 多智能体协作
|
||
|
||
```
|
||
主Agent(协调者)
|
||
├── 视觉Agent → 理解界面
|
||
├── 操作Agent → 执行动作
|
||
├── 知识Agent → 检索知识库
|
||
├── 校验Agent → 结果验证
|
||
└── 通信Agent → 微信/通知
|
||
```
|
||
|
||
## 技术选型
|
||
|
||
| 层级 | 技术 |
|
||
|------|------|
|
||
| 视觉模型 | 自研(非GPT-4V等第三方)|
|
||
| LLM | 自研 + 支持第三方接入 |
|
||
| 控制层 | CDP / UIAutomation |
|
||
| 知识库 | 向量数据库 + RAG |
|
||
| 通信 | 微信开放平台 / 企业微信API |
|