Files
thiflow-research/02-技术架构/README.md
Xiaomai ce0d75aa27 Initial commit: 识流(Thiflow) AI产品技术分析
- 产品概述与定位
- 技术架构分析
- 核心技术详解(视觉模型、Agent、控制层等)
- 竞品对比
- 可复刻实现方案
- 参考资料整理
2026-04-07 13:06:43 +08:00

84 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 02-技术架构
## 整体架构
```
┌─────────────────────────────────────────────────────────────┐
│ 用户交互层 │
│ (微信助手 / 公众号 / 网页 / API) │
└─────────────────────────┬───────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 多智能体调度层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 任务Agent │ │ 视觉Agent │ │ 操作Agent │ │ 知识Agent │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────────┬───────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 核心能力层 │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 视觉模型 │ │ 意图理解 │ │ 工具执行 │ │ 知识库 │ │
│ │ (看屏幕) │ │ (拆解任务) │ │ (操作电脑) │ │ (RAG) │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
└─────────────────────────┬───────────────────────────────────┘
┌─────────────────────────────────────────────────────────────┐
│ 基础设施层 │
│ (自研模型 / 知识库 / 微信API / 第三方LLM / CDP) │
└─────────────────────────────────────────────────────────────┘
```
## 核心能力层详解
### 1. 视觉模型(看)
负责理解屏幕内容:
- 截图获取
- 视觉编码
- UI元素检测按钮、输入框、列表
- 中文UI优化
### 2. 意图理解(想)
负责理解用户指令:
- 任务拆解
- 执行计划生成
- 动态调整
- 自我纠错
### 3. 工具执行(做)
负责执行操作:
- CDP / UIAutomation 控制
- 鼠标、键盘操作
- 结果验证
### 4. 知识库RAG
支持私域知识:
- 文档上传
- 向量化存储
- 召回增强
## 多智能体协作
```
主Agent协调者
├── 视觉Agent → 理解界面
├── 操作Agent → 执行动作
├── 知识Agent → 检索知识库
├── 校验Agent → 结果验证
└── 通信Agent → 微信/通知
```
## 技术选型
| 层级 | 技术 |
|------|------|
| 视觉模型 | 自研非GPT-4V等第三方|
| LLM | 自研 + 支持第三方接入 |
| 控制层 | CDP / UIAutomation |
| 知识库 | 向量数据库 + RAG |
| 通信 | 微信开放平台 / 企业微信API |