Files

Xiaomai ce0d75aa27 Initial commit: 识流(Thiflow) AI产品技术分析

- 产品概述与定位
- 技术架构分析
- 核心技术详解（视觉模型、Agent、控制层等）
- 竞品对比
- 可复刻实现方案
- 参考资料整理

2026-04-07 13:06:43 +08:00

README.md

Initial commit: 识流(Thiflow) AI产品技术分析

2026-04-07 13:06:43 +08:00

README.md

02-技术架构

整体架构

┌─────────────────────────────────────────────────────────────┐
│                        用户交互层                             │
│           (微信助手 / 公众号 / 网页 / API)                    │
└─────────────────────────┬───────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────────┐
│                     多智能体调度层                            │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐    │
│  │  任务Agent │  │ 视觉Agent │  │ 操作Agent │  │ 知识Agent │    │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘    │
└─────────────────────────┬───────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────────┐
│                       核心能力层                              │
│  ┌──────────┐  ┌──────────┐  ┌──────────┐  ┌──────────┐    │
│  │ 视觉模型  │  │ 意图理解  │  │ 工具执行  │  │ 知识库   │    │
│  │ (看屏幕) │  │ (拆解任务) │  │ (操作电脑) │  │ (RAG)   │    │
│  └──────────┘  └──────────┘  └──────────┘  └──────────┘    │
└─────────────────────────┬───────────────────────────────────┘
                          ↓
┌─────────────────────────────────────────────────────────────┐
│                       基础设施层                              │
│    (自研模型 / 知识库 / 微信API / 第三方LLM / CDP)           │
└─────────────────────────────────────────────────────────────┘

核心能力层详解

1. 视觉模型（看）

负责理解屏幕内容：

截图获取
视觉编码
UI元素检测（按钮、输入框、列表）
中文UI优化

2. 意图理解（想）

负责理解用户指令：

任务拆解
执行计划生成
动态调整
自我纠错

3. 工具执行（做）

负责执行操作：

CDP / UIAutomation 控制
鼠标、键盘操作
结果验证

4. 知识库（RAG）

支持私域知识：

文档上传
向量化存储
召回增强

多智能体协作

主Agent（协调者）
├── 视觉Agent   → 理解界面
├── 操作Agent   → 执行动作
├── 知识Agent   → 检索知识库
├── 校验Agent   → 结果验证
└── 通信Agent   → 微信/通知

技术选型

层级	技术
视觉模型	自研（非GPT-4V等第三方）
LLM	自研 + 支持第三方接入
控制层	CDP / UIAutomation
知识库	向量数据库 + RAG
通信	微信开放平台 / 企业微信API

README.md Unescape Escape

02-技术架构

整体架构

核心能力层详解

1. 视觉模型（看）

2. 意图理解（想）

3. 工具执行（做）

4. 知识库（RAG）

多智能体协作

技术选型

README.md