Files
thiflow-research/07-实现方案-详细/01-总体架构.md
秋芝2046 4e71e84c48 新增:详细实现方案(ClawFlow + Coding Agent生成)
基于 ClawFlow 编排 + 3个 Coding Agent 并行生成

新增文档:
- 07-实现方案-详细/
  ├── 01-总体架构.md (558行) - 系统架构、实施路线图(32周)、里程碑
  ├── 02-核心模块设计.md (2250行) - 5大核心模块详细设计 + Python伪代码
  └── 03-代码结构与规范.md (2837行) - 项目结构、API规范、配置、错误处理

技术亮点:
- 总体架构:6大模块分层设计,Phase 1(MVP 4周) → Phase 2(核心 8周) → Phase 3(产品化 12周)
- 核心模块:视觉(双方案)、Agent状态机、ReAct、控制层(CDP/UIA/AX)、微信自动化、知识库RAG
- 代码规范:完整Python项目结构、Pydantic模型、Flask API、异常体系、测试规范
2026-04-07 13:21:16 +08:00

37 KiB
Raw Permalink Blame History

识流AI - 总体架构设计 & 实施路线图

版本v1.0 | 日期2026-04-07 | 状态:初稿


1. 项目概述

1.1 项目定位

识流AI运营助手是一款基于多模态大模型和智能体Agent技术的下一代运营自动化平台。其核心愿景是让AI像一名真正的员工一样"看、想、做"——AI不仅能理解屏幕上的内容能进行业务逻辑推理和决策更能自主操控界面完成实际任务

这区别于传统的RPA Robotic Process Automation产品。传统RPA依赖预先录制的规则和坐标点击脆弱且难以适应变化识流AI则通过视觉理解 + 大语言模型推理 + 自主控制的三层架构,实现真正智能化的运营自动化

1.2 核心目标

目标层级 描述
复刻Thiflow核心功能 实现Thiflow作为"AI运营助手"的核心能力:屏幕感知、业务推理、界面操控
多平台覆盖 支持电商后台淘宝、抖音、拼多多、客服系统、ERP等多种运营场景
私有化部署 支持企业私有化部署,确保数据安全和自主可控
多租户Saas 支持多租户隔离的云端服务,按需付费

1.3 目标用户

用户角色 使用场景
电商运营 商品上下架、订单处理、评价管理、活动配置
私域运营 社群消息管理、用户标签运营、内容发布
客服 自动回复、工单处理、FAQ知识库问答
运营主管 多账号监控、数据报表、流程编排

2. 系统架构图

以下为识流AI的整体架构采用分层解耦的设计思想,每一层专注于自身职责,通过标准化接口通信。

┌─────────────────────────────────────────────────────────────────────────────┐
│                           用户交互层 (User Interaction Layer)                 │
│  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐       │
│  │   Web管理后台 │  │   客户端插件  │  │  移动端App   │  │   API接口    │       │
│  │  (React/Vue) │  │ (Chrome插件)  │  │  (Flutter)  │  │  (REST/gRPC) │       │
│  └──────────────┘  └──────────────┘  └──────────────┘  └──────────────┘       │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                          智能体调度层 (Agent Orchestration Layer)              │
│                                                                               │
│   ┌──────────────────────────────────────────────────────────────────────┐    │
│   │                      🎯 Agent 调度核心 (Orchestrator)                 │    │
│   │  ┌────────────┐ ┌────────────┐ ┌────────────┐ ┌────────────────────┐ │    │
│   │  │ 任务管理器  │ │ 资源调度器  │ │ 状态机引擎  │ │   异常恢复机制     │ │    │
│   │  │ Task Mgr   │ │  Scheduler │ │  FSM       │ │  Recovery Manager  │ │    │
│   │  └────────────┘ └────────────┘ └────────────┘ └────────────────────┘ │    │
│   └──────────────────────────────────────────────────────────────────────┘    │
│                                                                               │
│   ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐      │
│   │  📦 视觉Agent │  │  🧠 推理Agent │  │  🎮 执行Agent │  │  💬 通信Agent │      │
│   │  Vision Agent│  │  Reason Agent│  │  Action Agent│  │  Comm Agent  │      │
│   └──────────────┘  └──────────────┘  └──────────────┘  └──────────────┘      │
│                                                                               │
│   ┌────────────────────────── 消息总线 ────────────────────────────────┐     │
│   │              Redis Pub/Sub | RabbitMQ | Internal Queue            │     │
│   └────────────────────────────────────────────────────────────────────┘     │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                           核心能力层 (Core Capability Layer)                   │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        👁 视觉理解模块            │  │         🧠 Agent大脑模块          │    │
│  │   (Visual Understanding)        │  │     (Agent Brain / Reasoning)   │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  多模态视觉模型层        │    │  │  │  业务推理引擎            │    │    │
│  │  │  Qwen-VL / GPT-4V      │    │  │  │  LLM: Qwen / GPT-4o      │    │    │
│  │  │  LLaVA /InternVL       │    │  │  │  CoT / ReAct / Tree-of-  │    │    │
│  │  └─────────────────────────┘    │  │  │  Thought prompting       │    │    │
│  │  ┌─────────────────────────┐    │  │  └─────────────────────────┘    │    │
│  │  │  屏幕截图 & 帧提取       │    │  │  ┌─────────────────────────┐    │    │
│  │  │  (Screen Capture)       │    │  │  │  工具调用系统 (Tool Use) │    │    │
│  │  └─────────────────────────┘    │  │  │  Function Calling / MCP │    │    │
│  │  ┌─────────────────────────┐    │  │  └─────────────────────────┘    │    │
│  │  │  元素定位 & 区域识别     │    │  │  ┌─────────────────────────┐    │    │
│  │  │  OCR / Layout Analysis  │    │  │  │  Agent状态机 & 记忆      │    │    │
│  │  └─────────────────────────┘    │  │  │  Short/Long-term Memory │    │    │
│  └─────────────────────────────────┘  │  └─────────────────────────┘    │    │
│                                       └─────────────────────────────────┘    │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        🎮 控制执行模块            │  │         📚 知识库模块             │    │
│  │     (Control & Execution)       │  │      (Knowledge Base / RAG)     │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  浏览器自动化引擎        │    │  │  │  RAG检索引擎             │    │    │
│  │  │  Playwright / Puppeteer │    │  │  │  Chroma / Milvus / Qdrant│    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  桌面自动化引擎          │    │  │  │  向量嵌入模型            │    │    │
│  │  │  UIAutomation / ATX     │    │  │  │  text-embedding-3-large │    │    │
│  │  │  Accessibility API      │    │  │  │  BGE / JinaAI           │    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  操作指令执行器          │    │  │  │  知识图谱 (可选)         │    │    │
│  │  │  Click/Type/Wait/Sleep  │    │  │  │  Neo4j / TuGraph        │    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  操作日志 & 录屏回放    │    │  │  │  知识库管理后台          │    │    │
│  │  └─────────────────────────┘    │  │  │  文档上传 / 分块 / 索引  │    │    │
│  └─────────────────────────────────┘  │  └─────────────────────────┘    │    │
│                                       └─────────────────────────────────┘    │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        💬 通信模块               │  │        🔧 平台适配层              │    │
│  │   (Messaging & Communication)   │  │      (Platform Adapter Layer)   │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  微信/企微接入网关       │    │  │  │  平台操作标准化接口      │    │    │
│  │  │  WeChat Work SDK        │    │  │  │  Unified Action Protocol│    │    │
│  │  │  第三方消息网关          │    │  │  └─────────────────────────┘    │    │
│  │  └─────────────────────────┘    │  │  ┌─────────────────────────┐    │    │
│  │  ┌─────────────────────────┐    │  │  │  平台特定适配器         │    │    │
│  │  │  Webhook / 回调处理     │    │  │  │  淘宝/抖音/拼多多/小红书│    │    │
│  │  └─────────────────────────┘    │  │  │  企微/微信/钉钉         │    │    │
│  └─────────────────────────────────┘  └─────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                            基础设施层 (Infrastructure Layer)                   │
│                                                                               │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐               │
│  │   🚀 计算资源    │  │   📡 网络 & CDN  │  │   🔐 安全 & 权限  │               │
│  │  GPU集群/推理服务│  │  Nginx / API GW │  │  OAuth2 / JWT   │               │
│  │  Ray / vLLM     │  │  WAF / DDoS防护 │  │  RBAC / ABAC    │               │
│  │  (可选: GPU云)   │  │  内网穿透/Tunnel │  │  数据加密(AES256)│               │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘               │
│                                                                               │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐               │
│  │   🗄️ 数据存储    │  │   🔔 消息队列    │  │   📊 监控 & 日志 │               │
│  │  PostgreSQL     │  │  Redis Stream   │  │  Prometheus      │               │
│  │  Redis (缓存)   │  │  RabbitMQ       │  │  Grafana         │               │
│  │  S3/MinIO(文件) │  │  Kafka (可选)   │  │  ELK / Loki      │               │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘               │
│                                                                               │
│  ┌───────────────────────────────────────────────────────────────────────┐    │
│  │                      ☁️ 容器 & 编排层                                    │    │
│  │           Docker / Docker Compose | Kubernetes (K8s)                  │    │
│  │           Helm Charts | Argo Workflows (任务编排)                       │    │
│  └───────────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────────────────┘

3. 模块划分与职责

3.1 视觉理解模块(看)

核心职责: 作为系统的"眼睛"将屏幕内容转换为AI可理解的结构化信息。

子模块 职责 技术要点
屏幕截图采集 定时/事件触发截取屏幕或浏览器内容 全屏截图、区域截图、DOM截图
多模态视觉理解 将截图输入视觉语言模型,输出结构化描述 元素识别、文本OCR、布局分析、图标识别
动态元素定位 识别并定位可交互元素(按钮、输入框等) 坐标映射、元素标签生成
差异检测 对比操作前后的屏幕变化,判断操作是否成功 图像相似度计算、变更区域提取

关键技术能力:

  • 支持 1920x1080 到 4K 多种分辨率
  • 支持 60fps 流畅截图Playwright内置
  • 支持深色模式、弹窗等复杂UI识别
  • 截图压缩与批量处理减少token消耗

3.2 Agent大脑模块

核心职责: 作为系统的"大脑",进行业务逻辑推理、决策和任务规划。

子模块 职责 技术要点
业务推理引擎 基于LLM进行业务逻辑推理 CoT、ReAct、Tree-of-Thought prompting
任务规划器 将高层任务分解为可执行的原子操作步骤 HaluPlan、LLM-based planning
工具调用系统 统一管理工具定义、调用和结果解析 Function Calling、Tool schema registry
短期记忆 当前任务执行上下文Conversation scope In-context memory, sliding window
长期记忆 跨会话的运营知识、用户偏好、历史经验 Vector DB retrieval, summary

Agent核心工作流

用户指令 → 理解意图 → 任务分解 → 子任务分配 → 执行 → 验证 → 反馈
    ↑                                              ↓
    └──────────────── 异常/失败 → 反思重试 ←────────┘

3.3 控制执行模块(做)

核心职责: 作为系统的"手"将Agent决策转化为实际的界面操作。

子模块 职责 技术要点
浏览器自动化引擎 操控Chrome等浏览器 Playwright (首选)、Puppeteer
桌面自动化引擎 操控桌面应用和系统界面 UIAutomation (Windows)、ATX (Android)、Accessibility API (macOS)
元素操作器 执行点击、输入、拖拽、滚动等操作 坐标操作、DOM操作、键盘鼠标模拟
操作队列执行器 将操作按队列串行/并行执行 Async execution, retry, timeout
操作日志与回放 记录所有操作,支持审计和回放 操作日志、屏幕录屏、断点重试

操作安全保障:

  • 操作前截图确认(可选人工确认模式)
  • 高危操作(如支付、删除)二次验证
  • 操作超时自动中断
  • 操作日志完整记录可审计

3.4 知识库模块

核心职责: 为Agent提供领域知识支撑实现RAG检索增强生成增强的问答与推理。

子模块 职责 技术要点
文档处理管道 文档上传、解析、分块、清洗 PDF解析、OCR、Markdown转换、语义分块
向量索引管理 将文本块转为向量并建立索引 Chroma (轻量)、Milvus (大规模)、HNSW
混合检索 关键词 + 向量 + 知识图谱混合检索 BM25 + cosine similarity + Knowledge Graph
知识图谱 实体关系建模,支持复杂推理 Neo4j / TuGraph (可选Phase 2+)
知识库管理后台 知识库的增删改查、版本管理 版本控制、增量更新权限管理

3.5 通信模块(微信/企微)

核心职责: 实现与用户的消息互通,支持微信、企业微信等主流通讯平台。

子模块 职责 技术要点
企微接入网关 企业微信消息接收与发送 企微SDK、webhook、回调处理
微信接入网关 微信消息接收与发送(需注意官方政策) 第三方网关(仅限合规用途)
消息路由 将消息分发到对应的Agent或任务 消息队列、路由规则
消息格式化 富文本、卡片、图片等消息格式转换 Markdown → XML、卡片模板
指令解析 从自然语言消息中提取结构化指令 Intent recognition、entity extraction

3.6 调度编排模块

核心职责: 负责多Agent之间的任务协调、状态管理和资源分配。

子模块 职责 技术要点
任务调度器 接收任务请求、分配资源、触发执行 Priority queue, cron scheduling
状态机引擎 管理任务和Agent的生命周期状态 XState / 自研有限状态机
多Agent协调 复杂任务的多Agent协作与信息共享 Master-Slave / Hierarchical / Peer-to-Peer
异常恢复 失败任务自动重试、断点续传 Exponential backoff, checkpoint
限流与配额 防止资源滥用,多租户资源隔离 Token bucket, Redis计数器

4. 技术栈选型

4.1 视觉理解模块

层级 推荐方案 说明
首选视觉模型 Qwen-VL2 / Qwen2-VL 阿里开源,性能强,中文理解好,成本低,可私有化部署
备选视觉模型 GPT-4V (OpenAI) / Claude-3-Vision (Anthropic) 效果好但成本高,适合云端调用
轻量模型 LLaVA-1.6 / InternVL2 本地部署首选INT4量化后可在消费级GPU运行
OCR引擎 PaddleOCR / EasyOCR 高精度中文OCR部署简单
截图方案 Playwright (浏览器) + pyscreenshot (桌面) 跨平台,统一接口

4.2 Agent大脑模块

层级 推荐方案 说明
Agent框架 自研状态机 + LangChain备选 核心逻辑自研保证可控性LangChain用于快速验证
LLM推理 Qwen-Max (阿里云) / GPT-4o (OpenAI) 云端API本地可部署 Qwen2.5-72B-Instruct
本地推理 vLLM + Qwen2.5-72B 高吞吐量推理引擎支持OpenAI兼容API
Embedding模型 text-embedding-3-large (OpenAI) / BGE-m3 RAG检索用向量嵌入
工具调用 自研 Tool Registry + Function Calling 支持MCP (Model Context Protocol) 协议扩展

4.3 控制执行模块

场景 推荐方案 说明
Web自动化 Playwright 首选:功能强大、跨浏览器、支持录制、防检测
备选Web自动化 Puppeteer / Selenium 生态成熟但防检测能力弱
Windows桌面 UIAutomation (Python uiautomation库) Windows原生稳定性好
macOS桌面 PyATOM / Accessibility API macOS原生辅助功能
Android自动化 ATX (Airtest) 游戏、App自动化测试
操作队列 asyncio + Redis 高性能异步操作队列

4.4 知识库模块

场景 推荐方案 说明
向量数据库(轻量) Chroma 部署最简单适合中小规模数据Python原生
向量数据库(生产) Milvus 大规模数据、高可用、生产首选
备选向量库 Qdrant / Weaviate 性能优秀Rust实现
全文检索 Elasticsearch / Meilisearch 关键词检索与向量检索混合
知识图谱 Neo4j (云/私有) / TuGraph (阿里开源) 可选Phase 2+ 引入
文档处理 Unstructured.io / pdfplumber / RapidOCR PDF/Word/Excel 多格式解析

4.5 消息队列

场景 推荐方案 说明
首选 Redis Streams 轻量、内嵌在Redis中延迟最低适合本项目规模
异步任务队列 Celery + Redis Python生态成熟任务调度功能完善
消息总线 RabbitMQ 企业级消息中间件,适合多服务解耦
日志收集 Kafka (可选) 超高吞吐,适合大量日志分析场景

4.6 基础设施与部署

层级 推荐方案 说明
容器化 Docker 应用容器化,标准化交付
编排 Docker Compose (开发) / Kubernetes (生产) K8s用于多实例、高可用、弹性扩缩容
对象存储 MinIO (私有) / S3 (云) 文件、日志、录屏存储
关系数据库 PostgreSQL 主数据存储,事务支持
缓存 Redis 会话缓存、限流、队列
CI/CD GitHub Actions / GitLab CI 自动化构建和部署
日志 Loki + Promtail + Grafana 轻量级日志收集和可视化
监控 Prometheus + Grafana 指标监控和告警

5. 实施路线图

Phase 1: MVP — 最简可用产品 Week 04

核心目标: 验证"看→想→做"闭环可行性,完成核心链路的端到端跑通。

目标场景

  • 单一目标网站(如淘宝商家后台或指定后台管理系统)
  • 单Agent顺序执行
  • 最基础的操作类型:点击、输入、提交

技术重点

  • Playwright 浏览器自动化接入
  • Qwen-VL 视觉理解接入API方式
  • 单Agent状态机实现
  • Redis 任务队列搭建
  • 最小化知识库纯对话式无RAG

交付物

交付物 验收标准
浏览器自动化SDK 能操控指定网站的常见操作(登录、填表、提交)
视觉理解接口 给定截图能准确识别页面元素和内容
Agent核心程序 输入自然语言指令 → 截图 → 推理 → 执行 → 反馈
MVP管理后台 任务提交、状态查看、日志输出
技术文档 模块接口文档、部署手册

Week-by-Week 计划

Week 1: 环境搭建
  - 开发环境 Docker Compose 一键启动
  - Playwright 浏览器环境配置
  - Qwen-VL API 接入测试
  - 单Agent状态机骨架代码

Week 2: 核心链路
  - 截图 → 视觉理解 → 元素识别流程打通
  - Agent推理链实现LLM调用、Tool定义
  - 操作执行器实现Click/Type/Wait
  - 串联测试:端到端跑通一个简单任务

Week 3: 完善与稳定
  - 操作日志与录屏回放
  - 异常处理与自动重试
  - 简单任务管理后台(任务提交、状态查看)
  - 至少3个目标网站的适配测试

Week 4: MVP发布
  - 内部测试与Bug修复
  - 性能优化截图压缩、LLM调用优化
  - 编写部署文档和用户手册
  - MVP评审汇报

Phase 2: 核心能力建设 Week 512

核心目标: 构建完整的多Agent调度系统支持微信/企微接入和知识库RAG。

技术重点

  • 多Agent协作框架任务分解 + 子Agent并行/串行执行)
  • 企业微信/微信消息接入
  • RAG知识库系统文档上传→分块→向量化→检索→增强问答
  • 平台适配层抽象(统一接口 + 多平台适配器)
  • 操作成功率提升(防检测、重试策略、元素定位优化)

交付物

交付物 验收标准
多Agent调度系统 支持≥3个子Agent协作完成复合任务
企微/微信消息接入 能接收用户消息并通过Agent处理回复
RAG知识库 支持PDF/Word文档上传检索准确率≥80%
平台适配层 抽象统一接口,快速适配新平台
运营监控面板 任务成功率、响应时间、Agent状态可视化
API开放接口 RESTful API支持第三方集成

Week-by-Week 计划

Week 5-6: 多Agent框架
  - Agent注册与发现机制
  - 任务分解引擎LLM-based task decomposition
  - 多Agent通信协议设计
  - 并行/串行执行策略实现

Week 7-8: 通信模块
  - 企微SDK接入消息接收/发送)
  - 消息路由与指令解析
  - 群聊/私聊消息分发逻辑
  - 消息富文本卡片支持

Week 9-10: 知识库系统
  - 文档解析管道PDF/Word/Excel
  - 语义分块策略与向量化
  - Milvus 部署与索引配置
  - RAG检索流程实现Query改写 → 检索 → 重排序 → 生成)

Week 11-12: 集成与稳定
  - 全系统集成联调
  - 平台适配层完善(目标平台适配器扩展)
  - 监控告警系统上线
  - Phase 2 评审

Phase 3: 产品化与商业化 Week 1324

核心目标: 从技术Demo到商业产品的跨越实现多租户、UI完善和私有化部署能力。

技术重点

  • 完整的产品管理后台(用户管理、租户管理、计费)
  • 前端界面完善(可视化任务编排、低代码流程设计)
  • 多租户数据隔离
  • 私有化部署方案Kubernetes一键部署包
  • 安全加固(数据加密、权限控制、操作审计)
  • Agent自我学习与优化基于成功案例的Prompt优化

交付物

交付物 验收标准
完整产品UI 用户管理后台、任务编排界面、数据看板
可视化流程编排器 拖拽式多步骤任务编排,支持条件分支
多租户系统 租户隔离、资源配额、计费系统
私有化部署包 K8s Helm Chart一键部署企业内网可用
SDK发布 Python SDK支持第三方调用
安全合规 等保/分保相关安全加固
压力测试报告 100+并发Agent稳定运行≥24h

Week-by-Week 计划

Week 13-15: 产品UI
  - React/Vue 管理后台前端开发
  - 可视化任务编排器(节点拖拽、连线、配置面板)
  - 用户注册/登录/权限管理
  - 任务历史与数据分析面板

Week 16-18: 多租户与商业化
  - 多租户数据库隔离方案Schema per tenant
  - 资源配额与计费模型
  - API网关限流、鉴权、审计日志
  - 开放平台与Webhook

Week 19-21: 私有化部署
  - Kubernetes 部署方案设计
  - Helm Chart 打包
  - 私有化部署脚本ansible/puppet
  - 企业LDAP/SSO集成
  - 安装部署文档与视频教程

Week 22-24: 商业化准备
  - 完整产品文档用户手册、API文档、运维手册
  - 压力测试与性能优化
  - 安全渗透测试与修复
  - 灰度发布与反馈收集
  - Phase 3 正式发布

6. 里程碑总览

里程碑 计划时间 关键交付内容 成功标准
M1: MVP Week 4 能完成简单自动化任务的最小可用产品 单网站"看→想→做"闭环跑通成功率≥60%
M2: 通信接入 Week 8 Agent调度系统支持企微/微信消息接入 消息收发正常Agent能处理群聊/私聊指令
M3: 知识库 Week 12 知识库集成RAG检索支持 文档检索准确率≥80%,能结合知识库回答业务问题
M4: 生产就绪 Week 20 多Agent协作生产级稳定性 多Agent协作任务成功率≥85%7x24稳定运行
M5: 商业化 Week 24→32 完整产品化,支持多租户和私有化部署 多租户隔离、SDK发布、私有化包可用

附录

A. 项目依赖关系图

┌─────────────────────────────────────────────────────────────┐
│                      Phase 1 依赖                            │
│  ┌────────────┐                                             │
│  │ Playwright │ ←── 浏览器自动化核心                         │
│  └─────┬──────┘                                             │
│        ▼                                                    │
│  ┌────────────┐     ┌────────────┐                          │
│  │ Qwen-VL   │ ←── │ LLM推理    │  (视觉理解 + 决策)         │
│  └─────┬──────┘     └─────┬──────┘                          │
│        ▼                  ▼                                 │
│  ┌─────────────────────────────────────┐                   │
│  │        单Agent状态机                 │                   │
│  └──────────────────┬──────────────────┘                   │
│                     ▼                                      │
│  ┌─────────────────────────────────────┐                   │
│  │        Redis 任务队列               │                   │
│  └──────────────────┬──────────────────┘                   │
│                     ▼                                      │
│  ┌─────────────────────────────────────┐                   │
│  │        MVP 管理后台 (最小版)          │                   │
│  └─────────────────────────────────────┘                   │
└─────────────────────────────────────────────────────────────┘

Phase 2 依赖 Phase 1:
  └─ 多Agent调度 ← 单Agent状态机 (已验证)
  └─ 企微接入 ← 消息队列 (已搭建)
  └─ RAG ← LLM推理 + 向量数据库

Phase 3 依赖 Phase 2:
  └─ 多租户 ← 已有任务队列 + 数据库设计
  └─ 私有化 ← Docker/K8s (Phase1已有基础)

B. 关键技术风险与应对

风险 影响 应对策略
视觉模型误识别 操作元素定位错误 多帧确认 + 备用定位策略XPath/CSS
LLM推理延迟高 任务执行慢 流式输出 + 本地量化模型备用
平台反爬/防自动化 账号被封 随机延迟 + 行为模拟 + 代理IP池
企微API限制 消息频率受限 消息合并 + 本地缓存 + 限流控制
多Agent状态一致 协作任务数据不一致 分布式锁 + 事务性设计 + 幂等操作

C. 团队规模建议

阶段 人数 角色
Phase 1 3-4人 后端×1Browser/AgentAI×1视觉/LLM全栈×1后台/集成)
Phase 2 6-8人 Phase1团队 + 后端×2通信/平台适配AI×1RAG
Phase 3 10-15人 Phase2团队 + 前端×2产品UIDevOps×1安全×1产品×1

文档版本v1.0 | 最后更新2026-04-07