# 识流AI - 总体架构设计 & 实施路线图

> 版本：v1.0 | 日期：2026-04-07 | 状态：初稿

---

## 1. 项目概述

### 1.1 项目定位

**识流AI运营助手**是一款基于多模态大模型和智能体（Agent）技术的下一代运营自动化平台。其核心愿景是：**让AI像一名真正的员工一样"看、想、做"**——AI不仅能理解屏幕上的内容（看），能进行业务逻辑推理和决策（想），更能自主操控界面完成实际任务（做）。

这区别于传统的RPA（ Robotic Process Automation）产品。传统RPA依赖预先录制的规则和坐标点击，脆弱且难以适应变化；识流AI则通过视觉理解 + 大语言模型推理 + 自主控制的三层架构，实现**真正智能化的运营自动化**。

### 1.2 核心目标

| 目标层级 | 描述 |
|---------|------|
| **复刻Thiflow核心功能** | 实现Thiflow作为"AI运营助手"的核心能力：屏幕感知、业务推理、界面操控 |
| **多平台覆盖** | 支持电商后台（淘宝、抖音、拼多多）、客服系统、ERP等多种运营场景 |
| **私有化部署** | 支持企业私有化部署，确保数据安全和自主可控 |
| **多租户Saas** | 支持多租户隔离的云端服务，按需付费 |

### 1.3 目标用户

| 用户角色 | 使用场景 |
|---------|---------|
| **电商运营** | 商品上下架、订单处理、评价管理、活动配置 |
| **私域运营** | 社群消息管理、用户标签运营、内容发布 |
| **客服** | 自动回复、工单处理、FAQ知识库问答 |
| **运营主管** | 多账号监控、数据报表、流程编排 |

---

## 2. 系统架构图

以下为识流AI的整体架构，采用**分层解耦**的设计思想，每一层专注于自身职责，通过标准化接口通信。

```
┌─────────────────────────────────────────────────────────────────────────────┐
│                           用户交互层 (User Interaction Layer)                 │
│  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐       │
│  │   Web管理后台 │  │   客户端插件  │  │  移动端App   │  │   API接口    │       │
│  │  (React/Vue) │  │ (Chrome插件)  │  │  (Flutter)  │  │  (REST/gRPC) │       │
│  └──────────────┘  └──────────────┘  └──────────────┘  └──────────────┘       │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                          智能体调度层 (Agent Orchestration Layer)              │
│                                                                               │
│   ┌──────────────────────────────────────────────────────────────────────┐    │
│   │                      🎯 Agent 调度核心 (Orchestrator)                 │    │
│   │  ┌────────────┐ ┌────────────┐ ┌────────────┐ ┌────────────────────┐ │    │
│   │  │ 任务管理器  │ │ 资源调度器  │ │ 状态机引擎  │ │   异常恢复机制     │ │    │
│   │  │ Task Mgr   │ │  Scheduler │ │  FSM       │ │  Recovery Manager  │ │    │
│   │  └────────────┘ └────────────┘ └────────────┘ └────────────────────┘ │    │
│   └──────────────────────────────────────────────────────────────────────┘    │
│                                                                               │
│   ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐      │
│   │  📦 视觉Agent │  │  🧠 推理Agent │  │  🎮 执行Agent │  │  💬 通信Agent │      │
│   │  Vision Agent│  │  Reason Agent│  │  Action Agent│  │  Comm Agent  │      │
│   └──────────────┘  └──────────────┘  └──────────────┘  └──────────────┘      │
│                                                                               │
│   ┌────────────────────────── 消息总线 ────────────────────────────────┐     │
│   │              Redis Pub/Sub | RabbitMQ | Internal Queue            │     │
│   └────────────────────────────────────────────────────────────────────┘     │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                           核心能力层 (Core Capability Layer)                   │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        👁 视觉理解模块            │  │         🧠 Agent大脑模块          │    │
│  │   (Visual Understanding)        │  │     (Agent Brain / Reasoning)   │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  多模态视觉模型层        │    │  │  │  业务推理引擎            │    │    │
│  │  │  Qwen-VL / GPT-4V      │    │  │  │  LLM: Qwen / GPT-4o      │    │    │
│  │  │  LLaVA /InternVL       │    │  │  │  CoT / ReAct / Tree-of-  │    │    │
│  │  └─────────────────────────┘    │  │  │  Thought prompting       │    │    │
│  │  ┌─────────────────────────┐    │  │  └─────────────────────────┘    │    │
│  │  │  屏幕截图 & 帧提取       │    │  │  ┌─────────────────────────┐    │    │
│  │  │  (Screen Capture)       │    │  │  │  工具调用系统 (Tool Use) │    │    │
│  │  └─────────────────────────┘    │  │  │  Function Calling / MCP │    │    │
│  │  ┌─────────────────────────┐    │  │  └─────────────────────────┘    │    │
│  │  │  元素定位 & 区域识别     │    │  │  ┌─────────────────────────┐    │    │
│  │  │  OCR / Layout Analysis  │    │  │  │  Agent状态机 & 记忆      │    │    │
│  │  └─────────────────────────┘    │  │  │  Short/Long-term Memory │    │    │
│  └─────────────────────────────────┘  │  └─────────────────────────┘    │    │
│                                       └─────────────────────────────────┘    │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        🎮 控制执行模块            │  │         📚 知识库模块             │    │
│  │     (Control & Execution)       │  │      (Knowledge Base / RAG)     │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  浏览器自动化引擎        │    │  │  │  RAG检索引擎             │    │    │
│  │  │  Playwright / Puppeteer │    │  │  │  Chroma / Milvus / Qdrant│    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  桌面自动化引擎          │    │  │  │  向量嵌入模型            │    │    │
│  │  │  UIAutomation / ATX     │    │  │  │  text-embedding-3-large │    │    │
│  │  │  Accessibility API      │    │  │  │  BGE / JinaAI           │    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  操作指令执行器          │    │  │  │  知识图谱 (可选)         │    │    │
│  │  │  Click/Type/Wait/Sleep  │    │  │  │  Neo4j / TuGraph        │    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  操作日志 & 录屏回放    │    │  │  │  知识库管理后台          │    │    │
│  │  └─────────────────────────┘    │  │  │  文档上传 / 分块 / 索引  │    │    │
│  └─────────────────────────────────┘  │  └─────────────────────────┘    │    │
│                                       └─────────────────────────────────┘    │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        💬 通信模块               │  │        🔧 平台适配层              │    │
│  │   (Messaging & Communication)   │  │      (Platform Adapter Layer)   │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  微信/企微接入网关       │    │  │  │  平台操作标准化接口      │    │    │
│  │  │  WeChat Work SDK        │    │  │  │  Unified Action Protocol│    │    │
│  │  │  第三方消息网关          │    │  │  └─────────────────────────┘    │    │
│  │  └─────────────────────────┘    │  │  ┌─────────────────────────┐    │    │
│  │  ┌─────────────────────────┐    │  │  │  平台特定适配器         │    │    │
│  │  │  Webhook / 回调处理     │    │  │  │  淘宝/抖音/拼多多/小红书│    │    │
│  │  └─────────────────────────┘    │  │  │  企微/微信/钉钉         │    │    │
│  └─────────────────────────────────┘  └─────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                            基础设施层 (Infrastructure Layer)                   │
│                                                                               │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐               │
│  │   🚀 计算资源    │  │   📡 网络 & CDN  │  │   🔐 安全 & 权限  │               │
│  │  GPU集群/推理服务│  │  Nginx / API GW │  │  OAuth2 / JWT   │               │
│  │  Ray / vLLM     │  │  WAF / DDoS防护 │  │  RBAC / ABAC    │               │
│  │  (可选: GPU云)   │  │  内网穿透/Tunnel │  │  数据加密(AES256)│               │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘               │
│                                                                               │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐               │
│  │   🗄️ 数据存储    │  │   🔔 消息队列    │  │   📊 监控 & 日志 │               │
│  │  PostgreSQL     │  │  Redis Stream   │  │  Prometheus      │               │
│  │  Redis (缓存)   │  │  RabbitMQ       │  │  Grafana         │               │
│  │  S3/MinIO(文件) │  │  Kafka (可选)   │  │  ELK / Loki      │               │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘               │
│                                                                               │
│  ┌───────────────────────────────────────────────────────────────────────┐    │
│  │                      ☁️ 容器 & 编排层                                    │    │
│  │           Docker / Docker Compose | Kubernetes (K8s)                  │    │
│  │           Helm Charts | Argo Workflows (任务编排)                       │    │
│  └───────────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────────────────┘
```

---

## 3. 模块划分与职责

### 3.1 视觉理解模块（看）

**核心职责：** 作为系统的"眼睛"，将屏幕内容转换为AI可理解的结构化信息。

| 子模块 | 职责 | 技术要点 |
|-------|------|---------|
| 屏幕截图采集 | 定时/事件触发截取屏幕或浏览器内容 | 全屏截图、区域截图、DOM截图 |
| 多模态视觉理解 | 将截图输入视觉语言模型，输出结构化描述 | 元素识别、文本OCR、布局分析、图标识别 |
| 动态元素定位 | 识别并定位可交互元素（按钮、输入框等） | 坐标映射、元素标签生成 |
| 差异检测 | 对比操作前后的屏幕变化，判断操作是否成功 | 图像相似度计算、变更区域提取 |

**关键技术能力：**
- 支持 1920x1080 到 4K 多种分辨率
- 支持 60fps 流畅截图（Playwright内置）
- 支持深色模式、弹窗等复杂UI识别
- 截图压缩与批量处理，减少token消耗

### 3.2 Agent大脑模块（想）

**核心职责：** 作为系统的"大脑"，进行业务逻辑推理、决策和任务规划。

| 子模块 | 职责 | 技术要点 |
|-------|------|---------|
| 业务推理引擎 | 基于LLM进行业务逻辑推理 | CoT、ReAct、Tree-of-Thought prompting |
| 任务规划器 | 将高层任务分解为可执行的原子操作步骤 | HaluPlan、LLM-based planning |
| 工具调用系统 | 统一管理工具定义、调用和结果解析 | Function Calling、Tool schema registry |
| 短期记忆 | 当前任务执行上下文（Conversation scope） | In-context memory, sliding window |
| 长期记忆 | 跨会话的运营知识、用户偏好、历史经验 | Vector DB retrieval, summary |

**Agent核心工作流：**
```
用户指令 → 理解意图 → 任务分解 → 子任务分配 → 执行 → 验证 → 反馈
    ↑                                              ↓
    └──────────────── 异常/失败 → 反思重试 ←────────┘
```

### 3.3 控制执行模块（做）

**核心职责：** 作为系统的"手"，将Agent决策转化为实际的界面操作。

| 子模块 | 职责 | 技术要点 |
|-------|------|---------|
| 浏览器自动化引擎 | 操控Chrome等浏览器 | Playwright (首选)、Puppeteer |
| 桌面自动化引擎 | 操控桌面应用和系统界面 | UIAutomation (Windows)、ATX (Android)、Accessibility API (macOS) |
| 元素操作器 | 执行点击、输入、拖拽、滚动等操作 | 坐标操作、DOM操作、键盘鼠标模拟 |
| 操作队列执行器 | 将操作按队列串行/并行执行 | Async execution, retry, timeout |
| 操作日志与回放 | 记录所有操作，支持审计和回放 | 操作日志、屏幕录屏、断点重试 |

**操作安全保障：**
- 操作前截图确认（可选人工确认模式）
- 高危操作（如支付、删除）二次验证
- 操作超时自动中断
- 操作日志完整记录可审计

### 3.4 知识库模块

**核心职责：** 为Agent提供领域知识支撑，实现RAG（检索增强生成）增强的问答与推理。

| 子模块 | 职责 | 技术要点 |
|-------|------|---------|
| 文档处理管道 | 文档上传、解析、分块、清洗 | PDF解析、OCR、Markdown转换、语义分块 |
| 向量索引管理 | 将文本块转为向量并建立索引 | Chroma (轻量)、Milvus (大规模)、HNSW |
| 混合检索 | 关键词 + 向量 + 知识图谱混合检索 | BM25 + cosine similarity + Knowledge Graph |
| 知识图谱 | 实体关系建模，支持复杂推理 | Neo4j / TuGraph (可选，Phase 2+) |
| 知识库管理后台 | 知识库的增删改查、版本管理 | 版本控制、增量更新权限管理 |

### 3.5 通信模块（微信/企微）

**核心职责：** 实现与用户的消息互通，支持微信、企业微信等主流通讯平台。

| 子模块 | 职责 | 技术要点 |
|-------|------|---------|
| 企微接入网关 | 企业微信消息接收与发送 | 企微SDK、webhook、回调处理 |
| 微信接入网关 | 微信消息接收与发送（需注意官方政策） | 第三方网关（仅限合规用途） |
| 消息路由 | 将消息分发到对应的Agent或任务 | 消息队列、路由规则 |
| 消息格式化 | 富文本、卡片、图片等消息格式转换 | Markdown → XML、卡片模板 |
| 指令解析 | 从自然语言消息中提取结构化指令 | Intent recognition、entity extraction |

### 3.6 调度编排模块

**核心职责：** 负责多Agent之间的任务协调、状态管理和资源分配。

| 子模块 | 职责 | 技术要点 |
|-------|------|---------|
| 任务调度器 | 接收任务请求、分配资源、触发执行 | Priority queue, cron scheduling |
| 状态机引擎 | 管理任务和Agent的生命周期状态 | XState / 自研有限状态机 |
| 多Agent协调 | 复杂任务的多Agent协作与信息共享 | Master-Slave / Hierarchical / Peer-to-Peer |
| 异常恢复 | 失败任务自动重试、断点续传 | Exponential backoff, checkpoint |
| 限流与配额 | 防止资源滥用，多租户资源隔离 | Token bucket, Redis计数器 |

---

## 4. 技术栈选型

### 4.1 视觉理解模块

| 层级 | 推荐方案 | 说明 |
|-----|---------|------|
| **首选视觉模型** | **Qwen-VL2 / Qwen2-VL** | 阿里开源，性能强，中文理解好，成本低，可私有化部署 |
| **备选视觉模型** | GPT-4V (OpenAI) / Claude-3-Vision (Anthropic) | 效果好但成本高，适合云端调用 |
| **轻量模型** | LLaVA-1.6 / InternVL2 | 本地部署首选，INT4量化后可在消费级GPU运行 |
| **OCR引擎** | PaddleOCR / EasyOCR | 高精度中文OCR，部署简单 |
| **截图方案** | Playwright (浏览器) + pyscreenshot (桌面) | 跨平台，统一接口 |

### 4.2 Agent大脑模块

| 层级 | 推荐方案 | 说明 |
|-----|---------|------|
| **Agent框架** | **自研状态机 + LangChain备选** | 核心逻辑自研保证可控性；LangChain用于快速验证 |
| **LLM推理** | **Qwen-Max (阿里云) / GPT-4o (OpenAI)** | 云端API，本地可部署 Qwen2.5-72B-Instruct |
| **本地推理** | vLLM + Qwen2.5-72B | 高吞吐量推理引擎，支持OpenAI兼容API |
| **Embedding模型** | text-embedding-3-large (OpenAI) / BGE-m3 | RAG检索用向量嵌入 |
| **工具调用** | 自研 Tool Registry + Function Calling | 支持MCP (Model Context Protocol) 协议扩展 |

### 4.3 控制执行模块

| 场景 | 推荐方案 | 说明 |
|-----|---------|------|
| **Web自动化** | **Playwright** | 首选：功能强大、跨浏览器、支持录制、防检测 |
| **备选Web自动化** | Puppeteer / Selenium | 生态成熟但防检测能力弱 |
| **Windows桌面** | **UIAutomation** (Python uiautomation库) | Windows原生，稳定性好 |
| **macOS桌面** | **PyATOM / Accessibility API** | macOS原生辅助功能 |
| **Android自动化** | **ATX (Airtest)** | 游戏、App自动化测试 |
| **操作队列** | **asyncio + Redis** | 高性能异步操作队列 |

### 4.4 知识库模块

| 场景 | 推荐方案 | 说明 |
|-----|---------|------|
| **向量数据库（轻量）** | **Chroma** | 部署最简单，适合中小规模数据，Python原生 |
| **向量数据库（生产）** | **Milvus** | 大规模数据、高可用、生产首选 |
| **备选向量库** | Qdrant / Weaviate | 性能优秀，Rust实现 |
| **全文检索** | Elasticsearch / Meilisearch | 关键词检索与向量检索混合 |
| **知识图谱** | Neo4j (云/私有) / TuGraph (阿里开源) | 可选，Phase 2+ 引入 |
| **文档处理** | Unstructured.io / pdfplumber / RapidOCR | PDF/Word/Excel 多格式解析 |

### 4.5 消息队列

| 场景 | 推荐方案 | 说明 |
|-----|---------|------|
| **首选** | **Redis Streams** | 轻量、内嵌在Redis中，延迟最低，适合本项目规模 |
| **异步任务队列** | **Celery + Redis** | Python生态成熟，任务调度功能完善 |
| **消息总线** | **RabbitMQ** | 企业级消息中间件，适合多服务解耦 |
| **日志收集** | **Kafka** (可选) | 超高吞吐，适合大量日志分析场景 |

### 4.6 基础设施与部署

| 层级 | 推荐方案 | 说明 |
|-----|---------|------|
| **容器化** | **Docker** | 应用容器化，标准化交付 |
| **编排** | **Docker Compose (开发) / Kubernetes (生产)** | K8s用于多实例、高可用、弹性扩缩容 |
| **对象存储** | **MinIO (私有) / S3 (云)** | 文件、日志、录屏存储 |
| **关系数据库** | **PostgreSQL** | 主数据存储，事务支持 |
| **缓存** | **Redis** | 会话缓存、限流、队列 |
| **CI/CD** | GitHub Actions / GitLab CI | 自动化构建和部署 |
| **日志** | Loki + Promtail + Grafana | 轻量级日志收集和可视化 |
| **监控** | Prometheus + Grafana | 指标监控和告警 |

---

## 5. 实施路线图

### Phase 1: MVP — 最简可用产品 ⭐ Week 0–4

**核心目标：** 验证"看→想→做"闭环可行性，完成核心链路的端到端跑通。

#### 目标场景
- 单一目标网站（如淘宝商家后台或指定后台管理系统）
- 单Agent顺序执行
- 最基础的操作类型：点击、输入、提交

#### 技术重点
- Playwright 浏览器自动化接入
- Qwen-VL 视觉理解接入（API方式）
- 单Agent状态机实现
- Redis 任务队列搭建
- 最小化知识库（纯对话式，无RAG）

#### 交付物

| 交付物 | 验收标准 |
|-------|---------|
| 浏览器自动化SDK | 能操控指定网站的常见操作（登录、填表、提交） |
| 视觉理解接口 | 给定截图能准确识别页面元素和内容 |
| Agent核心程序 | 输入自然语言指令 → 截图 → 推理 → 执行 → 反馈 |
| MVP管理后台 | 任务提交、状态查看、日志输出 |
| 技术文档 | 模块接口文档、部署手册 |

#### Week-by-Week 计划

```
Week 1: 环境搭建
  - 开发环境 Docker Compose 一键启动
  - Playwright 浏览器环境配置
  - Qwen-VL API 接入测试
  - 单Agent状态机骨架代码

Week 2: 核心链路
  - 截图 → 视觉理解 → 元素识别流程打通
  - Agent推理链实现（LLM调用、Tool定义）
  - 操作执行器实现（Click/Type/Wait）
  - 串联测试：端到端跑通一个简单任务

Week 3: 完善与稳定
  - 操作日志与录屏回放
  - 异常处理与自动重试
  - 简单任务管理后台（任务提交、状态查看）
  - 至少3个目标网站的适配测试

Week 4: MVP发布
  - 内部测试与Bug修复
  - 性能优化（截图压缩、LLM调用优化）
  - 编写部署文档和用户手册
  - MVP评审汇报
```

---

### Phase 2: 核心能力建设 ⭐ Week 5–12

**核心目标：** 构建完整的多Agent调度系统，支持微信/企微接入和知识库RAG。

#### 技术重点
- 多Agent协作框架（任务分解 + 子Agent并行/串行执行）
- 企业微信/微信消息接入
- RAG知识库系统（文档上传→分块→向量化→检索→增强问答）
- 平台适配层抽象（统一接口 + 多平台适配器）
- 操作成功率提升（防检测、重试策略、元素定位优化）

#### 交付物

| 交付物 | 验收标准 |
|-------|---------|
| 多Agent调度系统 | 支持≥3个子Agent协作完成复合任务 |
| 企微/微信消息接入 | 能接收用户消息并通过Agent处理回复 |
| RAG知识库 | 支持PDF/Word文档上传，检索准确率≥80% |
| 平台适配层 | 抽象统一接口，快速适配新平台 |
| 运营监控面板 | 任务成功率、响应时间、Agent状态可视化 |
| API开放接口 | RESTful API，支持第三方集成 |

#### Week-by-Week 计划

```
Week 5-6: 多Agent框架
  - Agent注册与发现机制
  - 任务分解引擎（LLM-based task decomposition）
  - 多Agent通信协议设计
  - 并行/串行执行策略实现

Week 7-8: 通信模块
  - 企微SDK接入（消息接收/发送）
  - 消息路由与指令解析
  - 群聊/私聊消息分发逻辑
  - 消息富文本卡片支持

Week 9-10: 知识库系统
  - 文档解析管道（PDF/Word/Excel）
  - 语义分块策略与向量化
  - Milvus 部署与索引配置
  - RAG检索流程实现（Query改写 → 检索 → 重排序 → 生成）

Week 11-12: 集成与稳定
  - 全系统集成联调
  - 平台适配层完善（目标平台适配器扩展）
  - 监控告警系统上线
  - Phase 2 评审
```

---

### Phase 3: 产品化与商业化 ⭐ Week 13–24

**核心目标：** 从技术Demo到商业产品的跨越，实现多租户、UI完善和私有化部署能力。

#### 技术重点
- 完整的产品管理后台（用户管理、租户管理、计费）
- 前端界面完善（可视化任务编排、低代码流程设计）
- 多租户数据隔离
- 私有化部署方案（Kubernetes一键部署包）
- 安全加固（数据加密、权限控制、操作审计）
- Agent自我学习与优化（基于成功案例的Prompt优化）

#### 交付物

| 交付物 | 验收标准 |
|-------|---------|
| 完整产品UI | 用户管理后台、任务编排界面、数据看板 |
| 可视化流程编排器 | 拖拽式多步骤任务编排，支持条件分支 |
| 多租户系统 | 租户隔离、资源配额、计费系统 |
| 私有化部署包 | K8s Helm Chart，一键部署，企业内网可用 |
| SDK发布 | Python SDK，支持第三方调用 |
| 安全合规 | 等保/分保相关安全加固 |
| 压力测试报告 | 100+并发Agent，稳定运行≥24h |

#### Week-by-Week 计划

```
Week 13-15: 产品UI
  - React/Vue 管理后台前端开发
  - 可视化任务编排器（节点拖拽、连线、配置面板）
  - 用户注册/登录/权限管理
  - 任务历史与数据分析面板

Week 16-18: 多租户与商业化
  - 多租户数据库隔离方案（Schema per tenant）
  - 资源配额与计费模型
  - API网关（限流、鉴权、审计日志）
  - 开放平台与Webhook

Week 19-21: 私有化部署
  - Kubernetes 部署方案设计
  - Helm Chart 打包
  - 私有化部署脚本（ansible/puppet）
  - 企业LDAP/SSO集成
  - 安装部署文档与视频教程

Week 22-24: 商业化准备
  - 完整产品文档（用户手册、API文档、运维手册）
  - 压力测试与性能优化
  - 安全渗透测试与修复
  - 灰度发布与反馈收集
  - Phase 3 正式发布
```

---

## 6. 里程碑总览

| 里程碑 | 计划时间 | 关键交付内容 | 成功标准 |
|:------:|:-------:|-------------|---------|
| **M1: MVP** | Week 4 | 能完成简单自动化任务的最小可用产品 | 单网站"看→想→做"闭环跑通，成功率≥60% |
| **M2: 通信接入** | Week 8 | Agent调度系统，支持企微/微信消息接入 | 消息收发正常，Agent能处理群聊/私聊指令 |
| **M3: 知识库** | Week 12 | 知识库集成，RAG检索支持 | 文档检索准确率≥80%，能结合知识库回答业务问题 |
| **M4: 生产就绪** | Week 20 | 多Agent协作，生产级稳定性 | 多Agent协作任务成功率≥85%，7x24稳定运行 |
| **M5: 商业化** | Week 24→32 | 完整产品化，支持多租户和私有化部署 | 多租户隔离、SDK发布、私有化包可用 |

---

## 附录

### A. 项目依赖关系图

```
┌─────────────────────────────────────────────────────────────┐
│                      Phase 1 依赖                            │
│  ┌────────────┐                                             │
│  │ Playwright │ ←── 浏览器自动化核心                         │
│  └─────┬──────┘                                             │
│        ▼                                                    │
│  ┌────────────┐     ┌────────────┐                          │
│  │ Qwen-VL   │ ←── │ LLM推理    │  (视觉理解 + 决策)         │
│  └─────┬──────┘     └─────┬──────┘                          │
│        ▼                  ▼                                 │
│  ┌─────────────────────────────────────┐                   │
│  │        单Agent状态机                 │                   │
│  └──────────────────┬──────────────────┘                   │
│                     ▼                                      │
│  ┌─────────────────────────────────────┐                   │
│  │        Redis 任务队列               │                   │
│  └──────────────────┬──────────────────┘                   │
│                     ▼                                      │
│  ┌─────────────────────────────────────┐                   │
│  │        MVP 管理后台 (最小版)          │                   │
│  └─────────────────────────────────────┘                   │
└─────────────────────────────────────────────────────────────┘

Phase 2 依赖 Phase 1:
  └─ 多Agent调度 ← 单Agent状态机 (已验证)
  └─ 企微接入 ← 消息队列 (已搭建)
  └─ RAG ← LLM推理 + 向量数据库

Phase 3 依赖 Phase 2:
  └─ 多租户 ← 已有任务队列 + 数据库设计
  └─ 私有化 ← Docker/K8s (Phase1已有基础)
```

### B. 关键技术风险与应对

| 风险 | 影响 | 应对策略 |
|-----|-----|---------|
| 视觉模型误识别 | 操作元素定位错误 | 多帧确认 + 备用定位策略（XPath/CSS）|
| LLM推理延迟高 | 任务执行慢 | 流式输出 + 本地量化模型备用 |
| 平台反爬/防自动化 | 账号被封 | 随机延迟 + 行为模拟 + 代理IP池 |
| 企微API限制 | 消息频率受限 | 消息合并 + 本地缓存 + 限流控制 |
| 多Agent状态一致 | 协作任务数据不一致 | 分布式锁 + 事务性设计 + 幂等操作 |

### C. 团队规模建议

| 阶段 | 人数 | 角色 |
|-----|-----|-----|
| Phase 1 | 3-4人 | 后端×1（Browser/Agent），AI×1（视觉/LLM），全栈×1（后台/集成） |
| Phase 2 | 6-8人 | Phase1团队 + 后端×2（通信/平台适配），AI×1（RAG） |
| Phase 3 | 10-15人 | Phase2团队 + 前端×2（产品UI），DevOps×1，安全×1，产品×1 |

---

*文档版本：v1.0 | 最后更新：2026-04-07*