Initial commit: 识流(Thiflow) AI产品技术分析
- 产品概述与定位 - 技术架构分析 - 核心技术详解(视觉模型、Agent、控制层等) - 竞品对比 - 可复刻实现方案 - 参考资料整理
This commit is contained in:
83
02-技术架构/README.md
Normal file
83
02-技术架构/README.md
Normal file
@@ -0,0 +1,83 @@
|
||||
# 02-技术架构
|
||||
|
||||
## 整体架构
|
||||
|
||||
```
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ 用户交互层 │
|
||||
│ (微信助手 / 公众号 / 网页 / API) │
|
||||
└─────────────────────────┬───────────────────────────────────┘
|
||||
↓
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ 多智能体调度层 │
|
||||
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
|
||||
│ │ 任务Agent │ │ 视觉Agent │ │ 操作Agent │ │ 知识Agent │ │
|
||||
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
|
||||
└─────────────────────────┬───────────────────────────────────┘
|
||||
↓
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ 核心能力层 │
|
||||
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
|
||||
│ │ 视觉模型 │ │ 意图理解 │ │ 工具执行 │ │ 知识库 │ │
|
||||
│ │ (看屏幕) │ │ (拆解任务) │ │ (操作电脑) │ │ (RAG) │ │
|
||||
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
|
||||
└─────────────────────────┬───────────────────────────────────┘
|
||||
↓
|
||||
┌─────────────────────────────────────────────────────────────┐
|
||||
│ 基础设施层 │
|
||||
│ (自研模型 / 知识库 / 微信API / 第三方LLM / CDP) │
|
||||
└─────────────────────────────────────────────────────────────┘
|
||||
```
|
||||
|
||||
## 核心能力层详解
|
||||
|
||||
### 1. 视觉模型(看)
|
||||
|
||||
负责理解屏幕内容:
|
||||
- 截图获取
|
||||
- 视觉编码
|
||||
- UI元素检测(按钮、输入框、列表)
|
||||
- 中文UI优化
|
||||
|
||||
### 2. 意图理解(想)
|
||||
|
||||
负责理解用户指令:
|
||||
- 任务拆解
|
||||
- 执行计划生成
|
||||
- 动态调整
|
||||
- 自我纠错
|
||||
|
||||
### 3. 工具执行(做)
|
||||
|
||||
负责执行操作:
|
||||
- CDP / UIAutomation 控制
|
||||
- 鼠标、键盘操作
|
||||
- 结果验证
|
||||
|
||||
### 4. 知识库(RAG)
|
||||
|
||||
支持私域知识:
|
||||
- 文档上传
|
||||
- 向量化存储
|
||||
- 召回增强
|
||||
|
||||
## 多智能体协作
|
||||
|
||||
```
|
||||
主Agent(协调者)
|
||||
├── 视觉Agent → 理解界面
|
||||
├── 操作Agent → 执行动作
|
||||
├── 知识Agent → 检索知识库
|
||||
├── 校验Agent → 结果验证
|
||||
└── 通信Agent → 微信/通知
|
||||
```
|
||||
|
||||
## 技术选型
|
||||
|
||||
| 层级 | 技术 |
|
||||
|------|------|
|
||||
| 视觉模型 | 自研(非GPT-4V等第三方)|
|
||||
| LLM | 自研 + 支持第三方接入 |
|
||||
| 控制层 | CDP / UIAutomation |
|
||||
| 知识库 | 向量数据库 + RAG |
|
||||
| 通信 | 微信开放平台 / 企业微信API |
|
||||
Reference in New Issue
Block a user