Files

秋芝2046 4e71e84c48 新增：详细实现方案（ClawFlow + Coding Agent生成）

基于 ClawFlow 编排 + 3个 Coding Agent 并行生成

新增文档：
- 07-实现方案-详细/
  ├── 01-总体架构.md (558行) - 系统架构、实施路线图(32周)、里程碑
  ├── 02-核心模块设计.md (2250行) - 5大核心模块详细设计 + Python伪代码
  └── 03-代码结构与规范.md (2837行) - 项目结构、API规范、配置、错误处理

技术亮点：
- 总体架构：6大模块分层设计，Phase 1(MVP 4周) → Phase 2(核心 8周) → Phase 3(产品化 12周)
- 核心模块：视觉(双方案)、Agent状态机、ReAct、控制层(CDP/UIA/AX)、微信自动化、知识库RAG
- 代码规范：完整Python项目结构、Pydantic模型、Flask API、异常体系、测试规范

2026-04-07 13:21:16 +08:00

37 KiB

Raw Permalink Blame History

识流AI - 总体架构设计 & 实施路线图

版本：v1.0 | 日期：2026-04-07 | 状态：初稿

1. 项目概述

1.1 项目定位

识流AI运营助手是一款基于多模态大模型和智能体（Agent）技术的下一代运营自动化平台。其核心愿景是：让AI像一名真正的员工一样"看、想、做"——AI不仅能理解屏幕上的内容（看），能进行业务逻辑推理和决策（想），更能自主操控界面完成实际任务（做）。

这区别于传统的RPA（ Robotic Process Automation）产品。传统RPA依赖预先录制的规则和坐标点击，脆弱且难以适应变化；识流AI则通过视觉理解 + 大语言模型推理 + 自主控制的三层架构，实现真正智能化的运营自动化。

1.2 核心目标

目标层级	描述
复刻Thiflow核心功能	实现Thiflow作为"AI运营助手"的核心能力：屏幕感知、业务推理、界面操控
多平台覆盖	支持电商后台（淘宝、抖音、拼多多）、客服系统、ERP等多种运营场景
私有化部署	支持企业私有化部署，确保数据安全和自主可控
多租户Saas	支持多租户隔离的云端服务，按需付费

1.3 目标用户

用户角色	使用场景
电商运营	商品上下架、订单处理、评价管理、活动配置
私域运营	社群消息管理、用户标签运营、内容发布
客服	自动回复、工单处理、FAQ知识库问答
运营主管	多账号监控、数据报表、流程编排

2. 系统架构图

以下为识流AI的整体架构，采用分层解耦的设计思想，每一层专注于自身职责，通过标准化接口通信。

┌─────────────────────────────────────────────────────────────────────────────┐
│                           用户交互层 (User Interaction Layer)                 │
│  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐       │
│  │   Web管理后台 │  │   客户端插件  │  │  移动端App   │  │   API接口    │       │
│  │  (React/Vue) │  │ (Chrome插件)  │  │  (Flutter)  │  │  (REST/gRPC) │       │
│  └──────────────┘  └──────────────┘  └──────────────┘  └──────────────┘       │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                          智能体调度层 (Agent Orchestration Layer)              │
│                                                                               │
│   ┌──────────────────────────────────────────────────────────────────────┐    │
│   │                      🎯 Agent 调度核心 (Orchestrator)                 │    │
│   │  ┌────────────┐ ┌────────────┐ ┌────────────┐ ┌────────────────────┐ │    │
│   │  │ 任务管理器  │ │ 资源调度器  │ │ 状态机引擎  │ │   异常恢复机制     │ │    │
│   │  │ Task Mgr   │ │  Scheduler │ │  FSM       │ │  Recovery Manager  │ │    │
│   │  └────────────┘ └────────────┘ └────────────┘ └────────────────────┘ │    │
│   └──────────────────────────────────────────────────────────────────────┘    │
│                                                                               │
│   ┌──────────────┐  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐      │
│   │  📦 视觉Agent │  │  🧠 推理Agent │  │  🎮 执行Agent │  │  💬 通信Agent │      │
│   │  Vision Agent│  │  Reason Agent│  │  Action Agent│  │  Comm Agent  │      │
│   └──────────────┘  └──────────────┘  └──────────────┘  └──────────────┘      │
│                                                                               │
│   ┌────────────────────────── 消息总线 ────────────────────────────────┐     │
│   │              Redis Pub/Sub | RabbitMQ | Internal Queue            │     │
│   └────────────────────────────────────────────────────────────────────┘     │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                           核心能力层 (Core Capability Layer)                   │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        👁 视觉理解模块            │  │         🧠 Agent大脑模块          │    │
│  │   (Visual Understanding)        │  │     (Agent Brain / Reasoning)   │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  多模态视觉模型层        │    │  │  │  业务推理引擎            │    │    │
│  │  │  Qwen-VL / GPT-4V      │    │  │  │  LLM: Qwen / GPT-4o      │    │    │
│  │  │  LLaVA /InternVL       │    │  │  │  CoT / ReAct / Tree-of-  │    │    │
│  │  └─────────────────────────┘    │  │  │  Thought prompting       │    │    │
│  │  ┌─────────────────────────┐    │  │  └─────────────────────────┘    │    │
│  │  │  屏幕截图 & 帧提取       │    │  │  ┌─────────────────────────┐    │    │
│  │  │  (Screen Capture)       │    │  │  │  工具调用系统 (Tool Use) │    │    │
│  │  └─────────────────────────┘    │  │  │  Function Calling / MCP │    │    │
│  │  ┌─────────────────────────┐    │  │  └─────────────────────────┘    │    │
│  │  │  元素定位 & 区域识别     │    │  │  ┌─────────────────────────┐    │    │
│  │  │  OCR / Layout Analysis  │    │  │  │  Agent状态机 & 记忆      │    │    │
│  │  └─────────────────────────┘    │  │  │  Short/Long-term Memory │    │    │
│  └─────────────────────────────────┘  │  └─────────────────────────┘    │    │
│                                       └─────────────────────────────────┘    │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        🎮 控制执行模块            │  │         📚 知识库模块             │    │
│  │     (Control & Execution)       │  │      (Knowledge Base / RAG)     │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  浏览器自动化引擎        │    │  │  │  RAG检索引擎             │    │    │
│  │  │  Playwright / Puppeteer │    │  │  │  Chroma / Milvus / Qdrant│    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  桌面自动化引擎          │    │  │  │  向量嵌入模型            │    │    │
│  │  │  UIAutomation / ATX     │    │  │  │  text-embedding-3-large │    │    │
│  │  │  Accessibility API      │    │  │  │  BGE / JinaAI           │    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  操作指令执行器          │    │  │  │  知识图谱 (可选)         │    │    │
│  │  │  Click/Type/Wait/Sleep  │    │  │  │  Neo4j / TuGraph        │    │    │
│  │  └─────────────────────────┘    │  │  └─────────────────────────┘    │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  操作日志 & 录屏回放    │    │  │  │  知识库管理后台          │    │    │
│  │  └─────────────────────────┘    │  │  │  文档上传 / 分块 / 索引  │    │    │
│  └─────────────────────────────────┘  │  └─────────────────────────┘    │    │
│                                       └─────────────────────────────────┘    │
│                                                                               │
│  ┌─────────────────────────────────┐  ┌─────────────────────────────────┐    │
│  │        💬 通信模块               │  │        🔧 平台适配层              │    │
│  │   (Messaging & Communication)   │  │      (Platform Adapter Layer)   │    │
│  │                                 │  │                                 │    │
│  │  ┌─────────────────────────┐    │  │  ┌─────────────────────────┐    │    │
│  │  │  微信/企微接入网关       │    │  │  │  平台操作标准化接口      │    │    │
│  │  │  WeChat Work SDK        │    │  │  │  Unified Action Protocol│    │    │
│  │  │  第三方消息网关          │    │  │  └─────────────────────────┘    │    │
│  │  └─────────────────────────┘    │  │  ┌─────────────────────────┐    │    │
│  │  ┌─────────────────────────┐    │  │  │  平台特定适配器         │    │    │
│  │  │  Webhook / 回调处理     │    │  │  │  淘宝/抖音/拼多多/小红书│    │    │
│  │  └─────────────────────────┘    │  │  │  企微/微信/钉钉         │    │    │
│  └─────────────────────────────────┘  └─────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────────────────┘
                                        │
                                        ▼
┌─────────────────────────────────────────────────────────────────────────────┐
│                            基础设施层 (Infrastructure Layer)                   │
│                                                                               │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐               │
│  │   🚀 计算资源    │  │   📡 网络 & CDN  │  │   🔐 安全 & 权限  │               │
│  │  GPU集群/推理服务│  │  Nginx / API GW │  │  OAuth2 / JWT   │               │
│  │  Ray / vLLM     │  │  WAF / DDoS防护 │  │  RBAC / ABAC    │               │
│  │  (可选: GPU云)   │  │  内网穿透/Tunnel │  │  数据加密(AES256)│               │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘               │
│                                                                               │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────┐               │
│  │   🗄️ 数据存储    │  │   🔔 消息队列    │  │   📊 监控 & 日志 │               │
│  │  PostgreSQL     │  │  Redis Stream   │  │  Prometheus      │               │
│  │  Redis (缓存)   │  │  RabbitMQ       │  │  Grafana         │               │
│  │  S3/MinIO(文件) │  │  Kafka (可选)   │  │  ELK / Loki      │               │
│  └─────────────────┘  └─────────────────┘  └─────────────────┘               │
│                                                                               │
│  ┌───────────────────────────────────────────────────────────────────────┐    │
│  │                      ☁️ 容器 & 编排层                                    │    │
│  │           Docker / Docker Compose | Kubernetes (K8s)                  │    │
│  │           Helm Charts | Argo Workflows (任务编排)                       │    │
│  └───────────────────────────────────────────────────────────────────────┘    │
└─────────────────────────────────────────────────────────────────────────────┘

3. 模块划分与职责

3.1 视觉理解模块（看）

核心职责： 作为系统的"眼睛"，将屏幕内容转换为AI可理解的结构化信息。

子模块	职责	技术要点
屏幕截图采集	定时/事件触发截取屏幕或浏览器内容	全屏截图、区域截图、DOM截图
多模态视觉理解	将截图输入视觉语言模型，输出结构化描述	元素识别、文本OCR、布局分析、图标识别
动态元素定位	识别并定位可交互元素（按钮、输入框等）	坐标映射、元素标签生成
差异检测	对比操作前后的屏幕变化，判断操作是否成功	图像相似度计算、变更区域提取

关键技术能力：

支持 1920x1080 到 4K 多种分辨率
支持 60fps 流畅截图（Playwright内置）
支持深色模式、弹窗等复杂UI识别
截图压缩与批量处理，减少token消耗

3.2 Agent大脑模块（想）

核心职责： 作为系统的"大脑"，进行业务逻辑推理、决策和任务规划。

子模块	职责	技术要点
业务推理引擎	基于LLM进行业务逻辑推理	CoT、ReAct、Tree-of-Thought prompting
任务规划器	将高层任务分解为可执行的原子操作步骤	HaluPlan、LLM-based planning
工具调用系统	统一管理工具定义、调用和结果解析	Function Calling、Tool schema registry
短期记忆	当前任务执行上下文（Conversation scope）	In-context memory, sliding window
长期记忆	跨会话的运营知识、用户偏好、历史经验	Vector DB retrieval, summary

Agent核心工作流：

用户指令 → 理解意图 → 任务分解 → 子任务分配 → 执行 → 验证 → 反馈
    ↑                                              ↓
    └──────────────── 异常/失败 → 反思重试 ←────────┘

3.3 控制执行模块（做）

核心职责： 作为系统的"手"，将Agent决策转化为实际的界面操作。

子模块	职责	技术要点
浏览器自动化引擎	操控Chrome等浏览器	Playwright (首选)、Puppeteer
桌面自动化引擎	操控桌面应用和系统界面	UIAutomation (Windows)、ATX (Android)、Accessibility API (macOS)
元素操作器	执行点击、输入、拖拽、滚动等操作	坐标操作、DOM操作、键盘鼠标模拟
操作队列执行器	将操作按队列串行/并行执行	Async execution, retry, timeout
操作日志与回放	记录所有操作，支持审计和回放	操作日志、屏幕录屏、断点重试

操作安全保障：

操作前截图确认（可选人工确认模式）
高危操作（如支付、删除）二次验证
操作超时自动中断
操作日志完整记录可审计

3.4 知识库模块

核心职责： 为Agent提供领域知识支撑，实现RAG（检索增强生成）增强的问答与推理。

子模块	职责	技术要点
文档处理管道	文档上传、解析、分块、清洗	PDF解析、OCR、Markdown转换、语义分块
向量索引管理	将文本块转为向量并建立索引	Chroma (轻量)、Milvus (大规模)、HNSW
混合检索	关键词 + 向量 + 知识图谱混合检索	BM25 + cosine similarity + Knowledge Graph
知识图谱	实体关系建模，支持复杂推理	Neo4j / TuGraph (可选，Phase 2+)
知识库管理后台	知识库的增删改查、版本管理	版本控制、增量更新权限管理

3.5 通信模块（微信/企微）

核心职责： 实现与用户的消息互通，支持微信、企业微信等主流通讯平台。

子模块	职责	技术要点
企微接入网关	企业微信消息接收与发送	企微SDK、webhook、回调处理
微信接入网关	微信消息接收与发送（需注意官方政策）	第三方网关（仅限合规用途）
消息路由	将消息分发到对应的Agent或任务	消息队列、路由规则
消息格式化	富文本、卡片、图片等消息格式转换	Markdown → XML、卡片模板
指令解析	从自然语言消息中提取结构化指令	Intent recognition、entity extraction

3.6 调度编排模块

核心职责： 负责多Agent之间的任务协调、状态管理和资源分配。

子模块	职责	技术要点
任务调度器	接收任务请求、分配资源、触发执行	Priority queue, cron scheduling
状态机引擎	管理任务和Agent的生命周期状态	XState / 自研有限状态机
多Agent协调	复杂任务的多Agent协作与信息共享	Master-Slave / Hierarchical / Peer-to-Peer
异常恢复	失败任务自动重试、断点续传	Exponential backoff, checkpoint
限流与配额	防止资源滥用，多租户资源隔离	Token bucket, Redis计数器

4. 技术栈选型

4.1 视觉理解模块

层级	推荐方案	说明
首选视觉模型	Qwen-VL2 / Qwen2-VL	阿里开源，性能强，中文理解好，成本低，可私有化部署
备选视觉模型	GPT-4V (OpenAI) / Claude-3-Vision (Anthropic)	效果好但成本高，适合云端调用
轻量模型	LLaVA-1.6 / InternVL2	本地部署首选，INT4量化后可在消费级GPU运行
OCR引擎	PaddleOCR / EasyOCR	高精度中文OCR，部署简单
截图方案	Playwright (浏览器) + pyscreenshot (桌面)	跨平台，统一接口

4.2 Agent大脑模块

层级	推荐方案	说明
Agent框架	自研状态机 + LangChain备选	核心逻辑自研保证可控性；LangChain用于快速验证
LLM推理	Qwen-Max (阿里云) / GPT-4o (OpenAI)	云端API，本地可部署 Qwen2.5-72B-Instruct
本地推理	vLLM + Qwen2.5-72B	高吞吐量推理引擎，支持OpenAI兼容API
Embedding模型	text-embedding-3-large (OpenAI) / BGE-m3	RAG检索用向量嵌入
工具调用	自研 Tool Registry + Function Calling	支持MCP (Model Context Protocol) 协议扩展

4.3 控制执行模块

场景	推荐方案	说明
Web自动化	Playwright	首选：功能强大、跨浏览器、支持录制、防检测
备选Web自动化	Puppeteer / Selenium	生态成熟但防检测能力弱
Windows桌面	UIAutomation (Python uiautomation库)	Windows原生，稳定性好
macOS桌面	PyATOM / Accessibility API	macOS原生辅助功能
Android自动化	ATX (Airtest)	游戏、App自动化测试
操作队列	asyncio + Redis	高性能异步操作队列

4.4 知识库模块

场景	推荐方案	说明
向量数据库（轻量）	Chroma	部署最简单，适合中小规模数据，Python原生
向量数据库（生产）	Milvus	大规模数据、高可用、生产首选
备选向量库	Qdrant / Weaviate	性能优秀，Rust实现
全文检索	Elasticsearch / Meilisearch	关键词检索与向量检索混合
知识图谱	Neo4j (云/私有) / TuGraph (阿里开源)	可选，Phase 2+ 引入
文档处理	Unstructured.io / pdfplumber / RapidOCR	PDF/Word/Excel 多格式解析

4.5 消息队列

场景	推荐方案	说明
首选	Redis Streams	轻量、内嵌在Redis中，延迟最低，适合本项目规模
异步任务队列	Celery + Redis	Python生态成熟，任务调度功能完善
消息总线	RabbitMQ	企业级消息中间件，适合多服务解耦
日志收集	Kafka (可选)	超高吞吐，适合大量日志分析场景

4.6 基础设施与部署

层级	推荐方案	说明
容器化	Docker	应用容器化，标准化交付
编排	Docker Compose (开发) / Kubernetes (生产)	K8s用于多实例、高可用、弹性扩缩容
对象存储	MinIO (私有) / S3 (云)	文件、日志、录屏存储
关系数据库	PostgreSQL	主数据存储，事务支持
缓存	Redis	会话缓存、限流、队列
CI/CD	GitHub Actions / GitLab CI	自动化构建和部署
日志	Loki + Promtail + Grafana	轻量级日志收集和可视化
监控	Prometheus + Grafana	指标监控和告警

5. 实施路线图

Phase 1: MVP — 最简可用产品 ⭐ Week 0–4

核心目标： 验证"看→想→做"闭环可行性，完成核心链路的端到端跑通。

目标场景

单一目标网站（如淘宝商家后台或指定后台管理系统）
单Agent顺序执行
最基础的操作类型：点击、输入、提交

技术重点

Playwright 浏览器自动化接入
Qwen-VL 视觉理解接入（API方式）
单Agent状态机实现
Redis 任务队列搭建
最小化知识库（纯对话式，无RAG）

交付物

交付物	验收标准
浏览器自动化SDK	能操控指定网站的常见操作（登录、填表、提交）
视觉理解接口	给定截图能准确识别页面元素和内容
Agent核心程序	输入自然语言指令 → 截图 → 推理 → 执行 → 反馈
MVP管理后台	任务提交、状态查看、日志输出
技术文档	模块接口文档、部署手册

Week-by-Week 计划

Week 1: 环境搭建
  - 开发环境 Docker Compose 一键启动
  - Playwright 浏览器环境配置
  - Qwen-VL API 接入测试
  - 单Agent状态机骨架代码

Week 2: 核心链路
  - 截图 → 视觉理解 → 元素识别流程打通
  - Agent推理链实现（LLM调用、Tool定义）
  - 操作执行器实现（Click/Type/Wait）
  - 串联测试：端到端跑通一个简单任务

Week 3: 完善与稳定
  - 操作日志与录屏回放
  - 异常处理与自动重试
  - 简单任务管理后台（任务提交、状态查看）
  - 至少3个目标网站的适配测试

Week 4: MVP发布
  - 内部测试与Bug修复
  - 性能优化（截图压缩、LLM调用优化）
  - 编写部署文档和用户手册
  - MVP评审汇报

Phase 2: 核心能力建设 ⭐ Week 5–12

核心目标： 构建完整的多Agent调度系统，支持微信/企微接入和知识库RAG。

技术重点

多Agent协作框架（任务分解 + 子Agent并行/串行执行）
企业微信/微信消息接入
RAG知识库系统（文档上传→分块→向量化→检索→增强问答）
平台适配层抽象（统一接口 + 多平台适配器）
操作成功率提升（防检测、重试策略、元素定位优化）

交付物

交付物	验收标准
多Agent调度系统	支持≥3个子Agent协作完成复合任务
企微/微信消息接入	能接收用户消息并通过Agent处理回复
RAG知识库	支持PDF/Word文档上传，检索准确率≥80%
平台适配层	抽象统一接口，快速适配新平台
运营监控面板	任务成功率、响应时间、Agent状态可视化
API开放接口	RESTful API，支持第三方集成

Week-by-Week 计划

Week 5-6: 多Agent框架
  - Agent注册与发现机制
  - 任务分解引擎（LLM-based task decomposition）
  - 多Agent通信协议设计
  - 并行/串行执行策略实现

Week 7-8: 通信模块
  - 企微SDK接入（消息接收/发送）
  - 消息路由与指令解析
  - 群聊/私聊消息分发逻辑
  - 消息富文本卡片支持

Week 9-10: 知识库系统
  - 文档解析管道（PDF/Word/Excel）
  - 语义分块策略与向量化
  - Milvus 部署与索引配置
  - RAG检索流程实现（Query改写 → 检索 → 重排序 → 生成）

Week 11-12: 集成与稳定
  - 全系统集成联调
  - 平台适配层完善（目标平台适配器扩展）
  - 监控告警系统上线
  - Phase 2 评审

Phase 3: 产品化与商业化 ⭐ Week 13–24

核心目标： 从技术Demo到商业产品的跨越，实现多租户、UI完善和私有化部署能力。

技术重点

完整的产品管理后台（用户管理、租户管理、计费）
前端界面完善（可视化任务编排、低代码流程设计）
多租户数据隔离
私有化部署方案（Kubernetes一键部署包）
安全加固（数据加密、权限控制、操作审计）
Agent自我学习与优化（基于成功案例的Prompt优化）

交付物

交付物	验收标准
完整产品UI	用户管理后台、任务编排界面、数据看板
可视化流程编排器	拖拽式多步骤任务编排，支持条件分支
多租户系统	租户隔离、资源配额、计费系统
私有化部署包	K8s Helm Chart，一键部署，企业内网可用
SDK发布	Python SDK，支持第三方调用
安全合规	等保/分保相关安全加固
压力测试报告	100+并发Agent，稳定运行≥24h

Week-by-Week 计划

Week 13-15: 产品UI
  - React/Vue 管理后台前端开发
  - 可视化任务编排器（节点拖拽、连线、配置面板）
  - 用户注册/登录/权限管理
  - 任务历史与数据分析面板

Week 16-18: 多租户与商业化
  - 多租户数据库隔离方案（Schema per tenant）
  - 资源配额与计费模型
  - API网关（限流、鉴权、审计日志）
  - 开放平台与Webhook

Week 19-21: 私有化部署
  - Kubernetes 部署方案设计
  - Helm Chart 打包
  - 私有化部署脚本（ansible/puppet）
  - 企业LDAP/SSO集成
  - 安装部署文档与视频教程

Week 22-24: 商业化准备
  - 完整产品文档（用户手册、API文档、运维手册）
  - 压力测试与性能优化
  - 安全渗透测试与修复
  - 灰度发布与反馈收集
  - Phase 3 正式发布

6. 里程碑总览

里程碑	计划时间	关键交付内容	成功标准
M1: MVP	Week 4	能完成简单自动化任务的最小可用产品	单网站"看→想→做"闭环跑通，成功率≥60%
M2: 通信接入	Week 8	Agent调度系统，支持企微/微信消息接入	消息收发正常，Agent能处理群聊/私聊指令
M3: 知识库	Week 12	知识库集成，RAG检索支持	文档检索准确率≥80%，能结合知识库回答业务问题
M4: 生产就绪	Week 20	多Agent协作，生产级稳定性	多Agent协作任务成功率≥85%，7x24稳定运行
M5: 商业化	Week 24→32	完整产品化，支持多租户和私有化部署	多租户隔离、SDK发布、私有化包可用

附录

A. 项目依赖关系图

┌─────────────────────────────────────────────────────────────┐
│                      Phase 1 依赖                            │
│  ┌────────────┐                                             │
│  │ Playwright │ ←── 浏览器自动化核心                         │
│  └─────┬──────┘                                             │
│        ▼                                                    │
│  ┌────────────┐     ┌────────────┐                          │
│  │ Qwen-VL   │ ←── │ LLM推理    │  (视觉理解 + 决策)         │
│  └─────┬──────┘     └─────┬──────┘                          │
│        ▼                  ▼                                 │
│  ┌─────────────────────────────────────┐                   │
│  │        单Agent状态机                 │                   │
│  └──────────────────┬──────────────────┘                   │
│                     ▼                                      │
│  ┌─────────────────────────────────────┐                   │
│  │        Redis 任务队列               │                   │
│  └──────────────────┬──────────────────┘                   │
│                     ▼                                      │
│  ┌─────────────────────────────────────┐                   │
│  │        MVP 管理后台 (最小版)          │                   │
│  └─────────────────────────────────────┘                   │
└─────────────────────────────────────────────────────────────┘

Phase 2 依赖 Phase 1:
  └─ 多Agent调度 ← 单Agent状态机 (已验证)
  └─ 企微接入 ← 消息队列 (已搭建)
  └─ RAG ← LLM推理 + 向量数据库

Phase 3 依赖 Phase 2:
  └─ 多租户 ← 已有任务队列 + 数据库设计
  └─ 私有化 ← Docker/K8s (Phase1已有基础)

B. 关键技术风险与应对

风险	影响	应对策略
视觉模型误识别	操作元素定位错误	多帧确认 + 备用定位策略（XPath/CSS）
LLM推理延迟高	任务执行慢	流式输出 + 本地量化模型备用
平台反爬/防自动化	账号被封	随机延迟 + 行为模拟 + 代理IP池
企微API限制	消息频率受限	消息合并 + 本地缓存 + 限流控制
多Agent状态一致	协作任务数据不一致	分布式锁 + 事务性设计 + 幂等操作

C. 团队规模建议

阶段	人数	角色
Phase 1	3-4人	后端×1（Browser/Agent），AI×1（视觉/LLM），全栈×1（后台/集成）
Phase 2	6-8人	Phase1团队 + 后端×2（通信/平台适配），AI×1（RAG）
Phase 3	10-15人	Phase2团队 + 前端×2（产品UI），DevOps×1，安全×1，产品×1

文档版本：v1.0 | 最后更新：2026-04-07

37 KiB Raw Permalink Blame History Unescape Escape

识流AI - 总体架构设计 & 实施路线图

1. 项目概述

1.1 项目定位

1.2 核心目标

1.3 目标用户

2. 系统架构图

3. 模块划分与职责

3.1 视觉理解模块（看）

3.2 Agent大脑模块（想）

3.3 控制执行模块（做）

3.4 知识库模块

3.5 通信模块（微信/企微）

3.6 调度编排模块

4. 技术栈选型

4.1 视觉理解模块

4.2 Agent大脑模块

4.3 控制执行模块

4.4 知识库模块

4.5 消息队列

4.6 基础设施与部署

5. 实施路线图

Phase 1: MVP — 最简可用产品 ⭐ Week 0–4

目标场景

技术重点

交付物

Week-by-Week 计划

Phase 2: 核心能力建设 ⭐ Week 5–12

技术重点

交付物

Week-by-Week 计划

Phase 3: 产品化与商业化 ⭐ Week 13–24

技术重点

交付物

Week-by-Week 计划

6. 里程碑总览

附录

A. 项目依赖关系图

B. 关键技术风险与应对

C. 团队规模建议

37 KiB

Raw Permalink Blame History