基于 ClawFlow 编排 + 3个 Coding Agent 并行生成 新增文档: - 07-实现方案-详细/ ├── 01-总体架构.md (558行) - 系统架构、实施路线图(32周)、里程碑 ├── 02-核心模块设计.md (2250行) - 5大核心模块详细设计 + Python伪代码 └── 03-代码结构与规范.md (2837行) - 项目结构、API规范、配置、错误处理 技术亮点: - 总体架构:6大模块分层设计,Phase 1(MVP 4周) → Phase 2(核心 8周) → Phase 3(产品化 12周) - 核心模块:视觉(双方案)、Agent状态机、ReAct、控制层(CDP/UIA/AX)、微信自动化、知识库RAG - 代码规范:完整Python项目结构、Pydantic模型、Flask API、异常体系、测试规范
37 KiB
37 KiB
识流AI - 总体架构设计 & 实施路线图
版本:v1.0 | 日期:2026-04-07 | 状态:初稿
1. 项目概述
1.1 项目定位
识流AI运营助手是一款基于多模态大模型和智能体(Agent)技术的下一代运营自动化平台。其核心愿景是:让AI像一名真正的员工一样"看、想、做"——AI不仅能理解屏幕上的内容(看),能进行业务逻辑推理和决策(想),更能自主操控界面完成实际任务(做)。
这区别于传统的RPA( Robotic Process Automation)产品。传统RPA依赖预先录制的规则和坐标点击,脆弱且难以适应变化;识流AI则通过视觉理解 + 大语言模型推理 + 自主控制的三层架构,实现真正智能化的运营自动化。
1.2 核心目标
| 目标层级 | 描述 |
|---|---|
| 复刻Thiflow核心功能 | 实现Thiflow作为"AI运营助手"的核心能力:屏幕感知、业务推理、界面操控 |
| 多平台覆盖 | 支持电商后台(淘宝、抖音、拼多多)、客服系统、ERP等多种运营场景 |
| 私有化部署 | 支持企业私有化部署,确保数据安全和自主可控 |
| 多租户Saas | 支持多租户隔离的云端服务,按需付费 |
1.3 目标用户
| 用户角色 | 使用场景 |
|---|---|
| 电商运营 | 商品上下架、订单处理、评价管理、活动配置 |
| 私域运营 | 社群消息管理、用户标签运营、内容发布 |
| 客服 | 自动回复、工单处理、FAQ知识库问答 |
| 运营主管 | 多账号监控、数据报表、流程编排 |
2. 系统架构图
以下为识流AI的整体架构,采用分层解耦的设计思想,每一层专注于自身职责,通过标准化接口通信。
┌─────────────────────────────────────────────────────────────────────────────┐
│ 用户交互层 (User Interaction Layer) │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ Web管理后台 │ │ 客户端插件 │ │ 移动端App │ │ API接口 │ │
│ │ (React/Vue) │ │ (Chrome插件) │ │ (Flutter) │ │ (REST/gRPC) │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │
└─────────────────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────────────────┐
│ 智能体调度层 (Agent Orchestration Layer) │
│ │
│ ┌──────────────────────────────────────────────────────────────────────┐ │
│ │ 🎯 Agent 调度核心 (Orchestrator) │ │
│ │ ┌────────────┐ ┌────────────┐ ┌────────────┐ ┌────────────────────┐ │ │
│ │ │ 任务管理器 │ │ 资源调度器 │ │ 状态机引擎 │ │ 异常恢复机制 │ │ │
│ │ │ Task Mgr │ │ Scheduler │ │ FSM │ │ Recovery Manager │ │ │
│ │ └────────────┘ └────────────┘ └────────────┘ └────────────────────┘ │ │
│ └──────────────────────────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 📦 视觉Agent │ │ 🧠 推理Agent │ │ 🎮 执行Agent │ │ 💬 通信Agent │ │
│ │ Vision Agent│ │ Reason Agent│ │ Action Agent│ │ Comm Agent │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │
│ ┌────────────────────────── 消息总线 ────────────────────────────────┐ │
│ │ Redis Pub/Sub | RabbitMQ | Internal Queue │ │
│ └────────────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────────────────┐
│ 核心能力层 (Core Capability Layer) │
│ │
│ ┌─────────────────────────────────┐ ┌─────────────────────────────────┐ │
│ │ 👁 视觉理解模块 │ │ 🧠 Agent大脑模块 │ │
│ │ (Visual Understanding) │ │ (Agent Brain / Reasoning) │ │
│ │ │ │ │ │
│ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │
│ │ │ 多模态视觉模型层 │ │ │ │ 业务推理引擎 │ │ │
│ │ │ Qwen-VL / GPT-4V │ │ │ │ LLM: Qwen / GPT-4o │ │ │
│ │ │ LLaVA /InternVL │ │ │ │ CoT / ReAct / Tree-of- │ │ │
│ │ └─────────────────────────┘ │ │ │ Thought prompting │ │ │
│ │ ┌─────────────────────────┐ │ │ └─────────────────────────┘ │ │
│ │ │ 屏幕截图 & 帧提取 │ │ │ ┌─────────────────────────┐ │ │
│ │ │ (Screen Capture) │ │ │ │ 工具调用系统 (Tool Use) │ │ │
│ │ └─────────────────────────┘ │ │ │ Function Calling / MCP │ │ │
│ │ ┌─────────────────────────┐ │ │ └─────────────────────────┘ │ │
│ │ │ 元素定位 & 区域识别 │ │ │ ┌─────────────────────────┐ │ │
│ │ │ OCR / Layout Analysis │ │ │ │ Agent状态机 & 记忆 │ │ │
│ │ └─────────────────────────┘ │ │ │ Short/Long-term Memory │ │ │
│ └─────────────────────────────────┘ │ └─────────────────────────┘ │ │
│ └─────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────┐ ┌─────────────────────────────────┐ │
│ │ 🎮 控制执行模块 │ │ 📚 知识库模块 │ │
│ │ (Control & Execution) │ │ (Knowledge Base / RAG) │ │
│ │ │ │ │ │
│ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │
│ │ │ 浏览器自动化引擎 │ │ │ │ RAG检索引擎 │ │ │
│ │ │ Playwright / Puppeteer │ │ │ │ Chroma / Milvus / Qdrant│ │ │
│ │ └─────────────────────────┘ │ │ └─────────────────────────┘ │ │
│ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │
│ │ │ 桌面自动化引擎 │ │ │ │ 向量嵌入模型 │ │ │
│ │ │ UIAutomation / ATX │ │ │ │ text-embedding-3-large │ │ │
│ │ │ Accessibility API │ │ │ │ BGE / JinaAI │ │ │
│ │ └─────────────────────────┘ │ │ └─────────────────────────┘ │ │
│ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │
│ │ │ 操作指令执行器 │ │ │ │ 知识图谱 (可选) │ │ │
│ │ │ Click/Type/Wait/Sleep │ │ │ │ Neo4j / TuGraph │ │ │
│ │ └─────────────────────────┘ │ │ └─────────────────────────┘ │ │
│ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │
│ │ │ 操作日志 & 录屏回放 │ │ │ │ 知识库管理后台 │ │ │
│ │ └─────────────────────────┘ │ │ │ 文档上传 / 分块 / 索引 │ │ │
│ └─────────────────────────────────┘ │ └─────────────────────────┘ │ │
│ └─────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────┐ ┌─────────────────────────────────┐ │
│ │ 💬 通信模块 │ │ 🔧 平台适配层 │ │
│ │ (Messaging & Communication) │ │ (Platform Adapter Layer) │ │
│ │ │ │ │ │
│ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │
│ │ │ 微信/企微接入网关 │ │ │ │ 平台操作标准化接口 │ │ │
│ │ │ WeChat Work SDK │ │ │ │ Unified Action Protocol│ │ │
│ │ │ 第三方消息网关 │ │ │ └─────────────────────────┘ │ │
│ │ └─────────────────────────┘ │ │ ┌─────────────────────────┐ │ │
│ │ ┌─────────────────────────┐ │ │ │ 平台特定适配器 │ │ │
│ │ │ Webhook / 回调处理 │ │ │ │ 淘宝/抖音/拼多多/小红书│ │ │
│ │ └─────────────────────────┘ │ │ │ 企微/微信/钉钉 │ │ │
│ └─────────────────────────────────┘ └─────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────────────────────┐
│ 基础设施层 (Infrastructure Layer) │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 🚀 计算资源 │ │ 📡 网络 & CDN │ │ 🔐 安全 & 权限 │ │
│ │ GPU集群/推理服务│ │ Nginx / API GW │ │ OAuth2 / JWT │ │
│ │ Ray / vLLM │ │ WAF / DDoS防护 │ │ RBAC / ABAC │ │
│ │ (可选: GPU云) │ │ 内网穿透/Tunnel │ │ 数据加密(AES256)│ │
│ └─────────────────┘ └─────────────────┘ └─────────────────┘ │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │
│ │ 🗄️ 数据存储 │ │ 🔔 消息队列 │ │ 📊 监控 & 日志 │ │
│ │ PostgreSQL │ │ Redis Stream │ │ Prometheus │ │
│ │ Redis (缓存) │ │ RabbitMQ │ │ Grafana │ │
│ │ S3/MinIO(文件) │ │ Kafka (可选) │ │ ELK / Loki │ │
│ └─────────────────┘ └─────────────────┘ └─────────────────┘ │
│ │
│ ┌───────────────────────────────────────────────────────────────────────┐ │
│ │ ☁️ 容器 & 编排层 │ │
│ │ Docker / Docker Compose | Kubernetes (K8s) │ │
│ │ Helm Charts | Argo Workflows (任务编排) │ │
│ └───────────────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────────────────┘
3. 模块划分与职责
3.1 视觉理解模块(看)
核心职责: 作为系统的"眼睛",将屏幕内容转换为AI可理解的结构化信息。
| 子模块 | 职责 | 技术要点 |
|---|---|---|
| 屏幕截图采集 | 定时/事件触发截取屏幕或浏览器内容 | 全屏截图、区域截图、DOM截图 |
| 多模态视觉理解 | 将截图输入视觉语言模型,输出结构化描述 | 元素识别、文本OCR、布局分析、图标识别 |
| 动态元素定位 | 识别并定位可交互元素(按钮、输入框等) | 坐标映射、元素标签生成 |
| 差异检测 | 对比操作前后的屏幕变化,判断操作是否成功 | 图像相似度计算、变更区域提取 |
关键技术能力:
- 支持 1920x1080 到 4K 多种分辨率
- 支持 60fps 流畅截图(Playwright内置)
- 支持深色模式、弹窗等复杂UI识别
- 截图压缩与批量处理,减少token消耗
3.2 Agent大脑模块(想)
核心职责: 作为系统的"大脑",进行业务逻辑推理、决策和任务规划。
| 子模块 | 职责 | 技术要点 |
|---|---|---|
| 业务推理引擎 | 基于LLM进行业务逻辑推理 | CoT、ReAct、Tree-of-Thought prompting |
| 任务规划器 | 将高层任务分解为可执行的原子操作步骤 | HaluPlan、LLM-based planning |
| 工具调用系统 | 统一管理工具定义、调用和结果解析 | Function Calling、Tool schema registry |
| 短期记忆 | 当前任务执行上下文(Conversation scope) | In-context memory, sliding window |
| 长期记忆 | 跨会话的运营知识、用户偏好、历史经验 | Vector DB retrieval, summary |
Agent核心工作流:
用户指令 → 理解意图 → 任务分解 → 子任务分配 → 执行 → 验证 → 反馈
↑ ↓
└──────────────── 异常/失败 → 反思重试 ←────────┘
3.3 控制执行模块(做)
核心职责: 作为系统的"手",将Agent决策转化为实际的界面操作。
| 子模块 | 职责 | 技术要点 |
|---|---|---|
| 浏览器自动化引擎 | 操控Chrome等浏览器 | Playwright (首选)、Puppeteer |
| 桌面自动化引擎 | 操控桌面应用和系统界面 | UIAutomation (Windows)、ATX (Android)、Accessibility API (macOS) |
| 元素操作器 | 执行点击、输入、拖拽、滚动等操作 | 坐标操作、DOM操作、键盘鼠标模拟 |
| 操作队列执行器 | 将操作按队列串行/并行执行 | Async execution, retry, timeout |
| 操作日志与回放 | 记录所有操作,支持审计和回放 | 操作日志、屏幕录屏、断点重试 |
操作安全保障:
- 操作前截图确认(可选人工确认模式)
- 高危操作(如支付、删除)二次验证
- 操作超时自动中断
- 操作日志完整记录可审计
3.4 知识库模块
核心职责: 为Agent提供领域知识支撑,实现RAG(检索增强生成)增强的问答与推理。
| 子模块 | 职责 | 技术要点 |
|---|---|---|
| 文档处理管道 | 文档上传、解析、分块、清洗 | PDF解析、OCR、Markdown转换、语义分块 |
| 向量索引管理 | 将文本块转为向量并建立索引 | Chroma (轻量)、Milvus (大规模)、HNSW |
| 混合检索 | 关键词 + 向量 + 知识图谱混合检索 | BM25 + cosine similarity + Knowledge Graph |
| 知识图谱 | 实体关系建模,支持复杂推理 | Neo4j / TuGraph (可选,Phase 2+) |
| 知识库管理后台 | 知识库的增删改查、版本管理 | 版本控制、增量更新权限管理 |
3.5 通信模块(微信/企微)
核心职责: 实现与用户的消息互通,支持微信、企业微信等主流通讯平台。
| 子模块 | 职责 | 技术要点 |
|---|---|---|
| 企微接入网关 | 企业微信消息接收与发送 | 企微SDK、webhook、回调处理 |
| 微信接入网关 | 微信消息接收与发送(需注意官方政策) | 第三方网关(仅限合规用途) |
| 消息路由 | 将消息分发到对应的Agent或任务 | 消息队列、路由规则 |
| 消息格式化 | 富文本、卡片、图片等消息格式转换 | Markdown → XML、卡片模板 |
| 指令解析 | 从自然语言消息中提取结构化指令 | Intent recognition、entity extraction |
3.6 调度编排模块
核心职责: 负责多Agent之间的任务协调、状态管理和资源分配。
| 子模块 | 职责 | 技术要点 |
|---|---|---|
| 任务调度器 | 接收任务请求、分配资源、触发执行 | Priority queue, cron scheduling |
| 状态机引擎 | 管理任务和Agent的生命周期状态 | XState / 自研有限状态机 |
| 多Agent协调 | 复杂任务的多Agent协作与信息共享 | Master-Slave / Hierarchical / Peer-to-Peer |
| 异常恢复 | 失败任务自动重试、断点续传 | Exponential backoff, checkpoint |
| 限流与配额 | 防止资源滥用,多租户资源隔离 | Token bucket, Redis计数器 |
4. 技术栈选型
4.1 视觉理解模块
| 层级 | 推荐方案 | 说明 |
|---|---|---|
| 首选视觉模型 | Qwen-VL2 / Qwen2-VL | 阿里开源,性能强,中文理解好,成本低,可私有化部署 |
| 备选视觉模型 | GPT-4V (OpenAI) / Claude-3-Vision (Anthropic) | 效果好但成本高,适合云端调用 |
| 轻量模型 | LLaVA-1.6 / InternVL2 | 本地部署首选,INT4量化后可在消费级GPU运行 |
| OCR引擎 | PaddleOCR / EasyOCR | 高精度中文OCR,部署简单 |
| 截图方案 | Playwright (浏览器) + pyscreenshot (桌面) | 跨平台,统一接口 |
4.2 Agent大脑模块
| 层级 | 推荐方案 | 说明 |
|---|---|---|
| Agent框架 | 自研状态机 + LangChain备选 | 核心逻辑自研保证可控性;LangChain用于快速验证 |
| LLM推理 | Qwen-Max (阿里云) / GPT-4o (OpenAI) | 云端API,本地可部署 Qwen2.5-72B-Instruct |
| 本地推理 | vLLM + Qwen2.5-72B | 高吞吐量推理引擎,支持OpenAI兼容API |
| Embedding模型 | text-embedding-3-large (OpenAI) / BGE-m3 | RAG检索用向量嵌入 |
| 工具调用 | 自研 Tool Registry + Function Calling | 支持MCP (Model Context Protocol) 协议扩展 |
4.3 控制执行模块
| 场景 | 推荐方案 | 说明 |
|---|---|---|
| Web自动化 | Playwright | 首选:功能强大、跨浏览器、支持录制、防检测 |
| 备选Web自动化 | Puppeteer / Selenium | 生态成熟但防检测能力弱 |
| Windows桌面 | UIAutomation (Python uiautomation库) | Windows原生,稳定性好 |
| macOS桌面 | PyATOM / Accessibility API | macOS原生辅助功能 |
| Android自动化 | ATX (Airtest) | 游戏、App自动化测试 |
| 操作队列 | asyncio + Redis | 高性能异步操作队列 |
4.4 知识库模块
| 场景 | 推荐方案 | 说明 |
|---|---|---|
| 向量数据库(轻量) | Chroma | 部署最简单,适合中小规模数据,Python原生 |
| 向量数据库(生产) | Milvus | 大规模数据、高可用、生产首选 |
| 备选向量库 | Qdrant / Weaviate | 性能优秀,Rust实现 |
| 全文检索 | Elasticsearch / Meilisearch | 关键词检索与向量检索混合 |
| 知识图谱 | Neo4j (云/私有) / TuGraph (阿里开源) | 可选,Phase 2+ 引入 |
| 文档处理 | Unstructured.io / pdfplumber / RapidOCR | PDF/Word/Excel 多格式解析 |
4.5 消息队列
| 场景 | 推荐方案 | 说明 |
|---|---|---|
| 首选 | Redis Streams | 轻量、内嵌在Redis中,延迟最低,适合本项目规模 |
| 异步任务队列 | Celery + Redis | Python生态成熟,任务调度功能完善 |
| 消息总线 | RabbitMQ | 企业级消息中间件,适合多服务解耦 |
| 日志收集 | Kafka (可选) | 超高吞吐,适合大量日志分析场景 |
4.6 基础设施与部署
| 层级 | 推荐方案 | 说明 |
|---|---|---|
| 容器化 | Docker | 应用容器化,标准化交付 |
| 编排 | Docker Compose (开发) / Kubernetes (生产) | K8s用于多实例、高可用、弹性扩缩容 |
| 对象存储 | MinIO (私有) / S3 (云) | 文件、日志、录屏存储 |
| 关系数据库 | PostgreSQL | 主数据存储,事务支持 |
| 缓存 | Redis | 会话缓存、限流、队列 |
| CI/CD | GitHub Actions / GitLab CI | 自动化构建和部署 |
| 日志 | Loki + Promtail + Grafana | 轻量级日志收集和可视化 |
| 监控 | Prometheus + Grafana | 指标监控和告警 |
5. 实施路线图
Phase 1: MVP — 最简可用产品 ⭐ Week 0–4
核心目标: 验证"看→想→做"闭环可行性,完成核心链路的端到端跑通。
目标场景
- 单一目标网站(如淘宝商家后台或指定后台管理系统)
- 单Agent顺序执行
- 最基础的操作类型:点击、输入、提交
技术重点
- Playwright 浏览器自动化接入
- Qwen-VL 视觉理解接入(API方式)
- 单Agent状态机实现
- Redis 任务队列搭建
- 最小化知识库(纯对话式,无RAG)
交付物
| 交付物 | 验收标准 |
|---|---|
| 浏览器自动化SDK | 能操控指定网站的常见操作(登录、填表、提交) |
| 视觉理解接口 | 给定截图能准确识别页面元素和内容 |
| Agent核心程序 | 输入自然语言指令 → 截图 → 推理 → 执行 → 反馈 |
| MVP管理后台 | 任务提交、状态查看、日志输出 |
| 技术文档 | 模块接口文档、部署手册 |
Week-by-Week 计划
Week 1: 环境搭建
- 开发环境 Docker Compose 一键启动
- Playwright 浏览器环境配置
- Qwen-VL API 接入测试
- 单Agent状态机骨架代码
Week 2: 核心链路
- 截图 → 视觉理解 → 元素识别流程打通
- Agent推理链实现(LLM调用、Tool定义)
- 操作执行器实现(Click/Type/Wait)
- 串联测试:端到端跑通一个简单任务
Week 3: 完善与稳定
- 操作日志与录屏回放
- 异常处理与自动重试
- 简单任务管理后台(任务提交、状态查看)
- 至少3个目标网站的适配测试
Week 4: MVP发布
- 内部测试与Bug修复
- 性能优化(截图压缩、LLM调用优化)
- 编写部署文档和用户手册
- MVP评审汇报
Phase 2: 核心能力建设 ⭐ Week 5–12
核心目标: 构建完整的多Agent调度系统,支持微信/企微接入和知识库RAG。
技术重点
- 多Agent协作框架(任务分解 + 子Agent并行/串行执行)
- 企业微信/微信消息接入
- RAG知识库系统(文档上传→分块→向量化→检索→增强问答)
- 平台适配层抽象(统一接口 + 多平台适配器)
- 操作成功率提升(防检测、重试策略、元素定位优化)
交付物
| 交付物 | 验收标准 |
|---|---|
| 多Agent调度系统 | 支持≥3个子Agent协作完成复合任务 |
| 企微/微信消息接入 | 能接收用户消息并通过Agent处理回复 |
| RAG知识库 | 支持PDF/Word文档上传,检索准确率≥80% |
| 平台适配层 | 抽象统一接口,快速适配新平台 |
| 运营监控面板 | 任务成功率、响应时间、Agent状态可视化 |
| API开放接口 | RESTful API,支持第三方集成 |
Week-by-Week 计划
Week 5-6: 多Agent框架
- Agent注册与发现机制
- 任务分解引擎(LLM-based task decomposition)
- 多Agent通信协议设计
- 并行/串行执行策略实现
Week 7-8: 通信模块
- 企微SDK接入(消息接收/发送)
- 消息路由与指令解析
- 群聊/私聊消息分发逻辑
- 消息富文本卡片支持
Week 9-10: 知识库系统
- 文档解析管道(PDF/Word/Excel)
- 语义分块策略与向量化
- Milvus 部署与索引配置
- RAG检索流程实现(Query改写 → 检索 → 重排序 → 生成)
Week 11-12: 集成与稳定
- 全系统集成联调
- 平台适配层完善(目标平台适配器扩展)
- 监控告警系统上线
- Phase 2 评审
Phase 3: 产品化与商业化 ⭐ Week 13–24
核心目标: 从技术Demo到商业产品的跨越,实现多租户、UI完善和私有化部署能力。
技术重点
- 完整的产品管理后台(用户管理、租户管理、计费)
- 前端界面完善(可视化任务编排、低代码流程设计)
- 多租户数据隔离
- 私有化部署方案(Kubernetes一键部署包)
- 安全加固(数据加密、权限控制、操作审计)
- Agent自我学习与优化(基于成功案例的Prompt优化)
交付物
| 交付物 | 验收标准 |
|---|---|
| 完整产品UI | 用户管理后台、任务编排界面、数据看板 |
| 可视化流程编排器 | 拖拽式多步骤任务编排,支持条件分支 |
| 多租户系统 | 租户隔离、资源配额、计费系统 |
| 私有化部署包 | K8s Helm Chart,一键部署,企业内网可用 |
| SDK发布 | Python SDK,支持第三方调用 |
| 安全合规 | 等保/分保相关安全加固 |
| 压力测试报告 | 100+并发Agent,稳定运行≥24h |
Week-by-Week 计划
Week 13-15: 产品UI
- React/Vue 管理后台前端开发
- 可视化任务编排器(节点拖拽、连线、配置面板)
- 用户注册/登录/权限管理
- 任务历史与数据分析面板
Week 16-18: 多租户与商业化
- 多租户数据库隔离方案(Schema per tenant)
- 资源配额与计费模型
- API网关(限流、鉴权、审计日志)
- 开放平台与Webhook
Week 19-21: 私有化部署
- Kubernetes 部署方案设计
- Helm Chart 打包
- 私有化部署脚本(ansible/puppet)
- 企业LDAP/SSO集成
- 安装部署文档与视频教程
Week 22-24: 商业化准备
- 完整产品文档(用户手册、API文档、运维手册)
- 压力测试与性能优化
- 安全渗透测试与修复
- 灰度发布与反馈收集
- Phase 3 正式发布
6. 里程碑总览
| 里程碑 | 计划时间 | 关键交付内容 | 成功标准 |
|---|---|---|---|
| M1: MVP | Week 4 | 能完成简单自动化任务的最小可用产品 | 单网站"看→想→做"闭环跑通,成功率≥60% |
| M2: 通信接入 | Week 8 | Agent调度系统,支持企微/微信消息接入 | 消息收发正常,Agent能处理群聊/私聊指令 |
| M3: 知识库 | Week 12 | 知识库集成,RAG检索支持 | 文档检索准确率≥80%,能结合知识库回答业务问题 |
| M4: 生产就绪 | Week 20 | 多Agent协作,生产级稳定性 | 多Agent协作任务成功率≥85%,7x24稳定运行 |
| M5: 商业化 | Week 24→32 | 完整产品化,支持多租户和私有化部署 | 多租户隔离、SDK发布、私有化包可用 |
附录
A. 项目依赖关系图
┌─────────────────────────────────────────────────────────────┐
│ Phase 1 依赖 │
│ ┌────────────┐ │
│ │ Playwright │ ←── 浏览器自动化核心 │
│ └─────┬──────┘ │
│ ▼ │
│ ┌────────────┐ ┌────────────┐ │
│ │ Qwen-VL │ ←── │ LLM推理 │ (视觉理解 + 决策) │
│ └─────┬──────┘ └─────┬──────┘ │
│ ▼ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ 单Agent状态机 │ │
│ └──────────────────┬──────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ Redis 任务队列 │ │
│ └──────────────────┬──────────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ MVP 管理后台 (最小版) │ │
│ └─────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
Phase 2 依赖 Phase 1:
└─ 多Agent调度 ← 单Agent状态机 (已验证)
└─ 企微接入 ← 消息队列 (已搭建)
└─ RAG ← LLM推理 + 向量数据库
Phase 3 依赖 Phase 2:
└─ 多租户 ← 已有任务队列 + 数据库设计
└─ 私有化 ← Docker/K8s (Phase1已有基础)
B. 关键技术风险与应对
| 风险 | 影响 | 应对策略 |
|---|---|---|
| 视觉模型误识别 | 操作元素定位错误 | 多帧确认 + 备用定位策略(XPath/CSS) |
| LLM推理延迟高 | 任务执行慢 | 流式输出 + 本地量化模型备用 |
| 平台反爬/防自动化 | 账号被封 | 随机延迟 + 行为模拟 + 代理IP池 |
| 企微API限制 | 消息频率受限 | 消息合并 + 本地缓存 + 限流控制 |
| 多Agent状态一致 | 协作任务数据不一致 | 分布式锁 + 事务性设计 + 幂等操作 |
C. 团队规模建议
| 阶段 | 人数 | 角色 |
|---|---|---|
| Phase 1 | 3-4人 | 后端×1(Browser/Agent),AI×1(视觉/LLM),全栈×1(后台/集成) |
| Phase 2 | 6-8人 | Phase1团队 + 后端×2(通信/平台适配),AI×1(RAG) |
| Phase 3 | 10-15人 | Phase2团队 + 前端×2(产品UI),DevOps×1,安全×1,产品×1 |
文档版本:v1.0 | 最后更新:2026-04-07