thiflow-research/02-技术架构/README.md

# 02-技术架构

## 整体架构

```
┌─────────────────────────────────────────────────────────────┐
│                        用户交互层                             │
│           (微信助手 / 公众号 / 网页 / API)                    │
└─────────────────────────┬───────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────────┐
│                     多智能体调度层                            │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐    │
│  │  任务Agent │  │ 视觉Agent │  │ 操作Agent │  │ 知识Agent │    │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘    │
└─────────────────────────┬───────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────────┐
│                       核心能力层                              │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐    │
│  │ 视觉模型  │  │ 意图理解  │  │ 工具执行  │  │ 知识库   │    │
│  │ (看屏幕) │  │ (拆解任务) │  │ (操作电脑) │  │ (RAG)   │    │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘    │
└─────────────────────────┬───────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────────┐
│                       基础设施层                              │
│    (自研模型 / 知识库 / 微信API / 第三方LLM / CDP)           │
└─────────────────────────────────────────────────────────────┘
```

## 核心能力层详解

### 1. 视觉模型（看）

负责理解屏幕内容：
- 截图获取
- 视觉编码
- UI元素检测（按钮、输入框、列表）
- 中文UI优化

### 2. 意图理解（想）

负责理解用户指令：
- 任务拆解
- 执行计划生成
- 动态调整
- 自我纠错

### 3. 工具执行（做）

负责执行操作：
- CDP / UIAutomation 控制
- 鼠标、键盘操作
- 结果验证

### 4. 知识库（RAG）

支持私域知识：
- 文档上传
- 向量化存储
- 召回增强

## 多智能体协作

```
主Agent（协调者）
├── 视觉Agent   → 理解界面
├── 操作Agent   → 执行动作
├── 知识Agent   → 检索知识库
├── 校验Agent   → 结果验证
└── 通信Agent   → 微信/通知
```

## 技术选型

| 层级 | 技术 |
|------|------|
| 视觉模型 | 自研（非GPT-4V等第三方）|
| LLM | 自研 + 支持第三方接入 |
| 控制层 | CDP / UIAutomation |
| 知识库 | 向量数据库 + RAG |
| 通信 | 微信开放平台 / 企业微信API |