# 识流AI - 总体架构设计 & 实施路线图 > 版本:v1.0 | 日期:2026-04-07 | 状态:初稿 --- ## 1. 项目概述 ### 1.1 项目定位 **识流AI运营助手**是一款基于多模态大模型和智能体(Agent)技术的下一代运营自动化平台。其核心愿景是:**让AI像一名真正的员工一样"看、想、做"**——AI不仅能理解屏幕上的内容(看),能进行业务逻辑推理和决策(想),更能自主操控界面完成实际任务(做)。 这区别于传统的RPA( Robotic Process Automation)产品。传统RPA依赖预先录制的规则和坐标点击,脆弱且难以适应变化;识流AI则通过视觉理解 + 大语言模型推理 + 自主控制的三层架构,实现**真正智能化的运营自动化**。 ### 1.2 核心目标 | 目标层级 | 描述 | |---------|------| | **复刻Thiflow核心功能** | 实现Thiflow作为"AI运营助手"的核心能力:屏幕感知、业务推理、界面操控 | | **多平台覆盖** | 支持电商后台(淘宝、抖音、拼多多)、客服系统、ERP等多种运营场景 | | **私有化部署** | 支持企业私有化部署,确保数据安全和自主可控 | | **多租户Saas** | 支持多租户隔离的云端服务,按需付费 | ### 1.3 目标用户 | 用户角色 | 使用场景 | |---------|---------| | **电商运营** | 商品上下架、订单处理、评价管理、活动配置 | | **私域运营** | 社群消息管理、用户标签运营、内容发布 | | **客服** | 自动回复、工单处理、FAQ知识库问答 | | **运营主管** | 多账号监控、数据报表、流程编排 | --- ## 2. 系统架构图 以下为识流AI的整体架构,采用**分层解耦**的设计思想,每一层专注于自身职责,通过标准化接口通信。 ``` ┌─────────────────────────────────────────────────────────────────────────────┐ │ 用户交互层 (User Interaction Layer) │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ Web管理后台 │ │ 客户端插件 │ │ 移动端App │ │ API接口 │ │ │ │ (React/Vue) │ │ (Chrome插件) │ │ (Flutter) │ │ (REST/gRPC) │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │ └─────────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────────┐ │ 智能体调度层 (Agent Orchestration Layer) │ │ │ │ ┌──────────────────────────────────────────────────────────────────────┐ │ │ │ 🎯 Agent 调度核心 (Orchestrator) │ │ │ │ ┌────────────┐ ┌────────────┐ ┌────────────┐ ┌────────────────────┐ │ │ │ │ │ 任务管理器 │ │ 资源调度器 │ │ 状态机引擎 │ │ 异常恢复机制 │ │ │ │ │ │ Task Mgr │ │ Scheduler │ │ FSM │ │ Recovery Manager │ │ │ │ │ └────────────┘ └────────────┘ └────────────┘ └────────────────────┘ │ │ │ └──────────────────────────────────────────────────────────────────────┘ │ │ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ 📦 视觉Agent │ │ 🧠 推理Agent │ │ 🎮 执行Agent │ │ 💬 通信Agent │ │ │ │ Vision Agent│ │ Reason Agent│ │ Action Agent│ │ Comm Agent │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ ┌────────────────────────── 消息总线 ────────────────────────────────┐ │ │ │ Redis Pub/Sub | RabbitMQ | Internal Queue │ │ │ └────────────────────────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────────┐ │ 核心能力层 (Core Capability Layer) │ │ │ │ ┌─────────────────────────────────┐ ┌─────────────────────────────────┐ │ │ │ 👁 视觉理解模块 │ │ 🧠 Agent大脑模块 │ │ │ │ (Visual Understanding) │ │ (Agent Brain / Reasoning) │ │ │ │ │ │ │ │ │ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │ │ │ │ 多模态视觉模型层 │ │ │ │ 业务推理引擎 │ │ │ │ │ │ Qwen-VL / GPT-4V │ │ │ │ LLM: Qwen / GPT-4o │ │ │ │ │ │ LLaVA /InternVL │ │ │ │ CoT / ReAct / Tree-of- │ │ │ │ │ └─────────────────────────┘ │ │ │ Thought prompting │ │ │ │ │ ┌─────────────────────────┐ │ │ └─────────────────────────┘ │ │ │ │ │ 屏幕截图 & 帧提取 │ │ │ ┌─────────────────────────┐ │ │ │ │ │ (Screen Capture) │ │ │ │ 工具调用系统 (Tool Use) │ │ │ │ │ └─────────────────────────┘ │ │ │ Function Calling / MCP │ │ │ │ │ ┌─────────────────────────┐ │ │ └─────────────────────────┘ │ │ │ │ │ 元素定位 & 区域识别 │ │ │ ┌─────────────────────────┐ │ │ │ │ │ OCR / Layout Analysis │ │ │ │ Agent状态机 & 记忆 │ │ │ │ │ └─────────────────────────┘ │ │ │ Short/Long-term Memory │ │ │ │ └─────────────────────────────────┘ │ └─────────────────────────┘ │ │ │ └─────────────────────────────────┘ │ │ │ │ ┌─────────────────────────────────┐ ┌─────────────────────────────────┐ │ │ │ 🎮 控制执行模块 │ │ 📚 知识库模块 │ │ │ │ (Control & Execution) │ │ (Knowledge Base / RAG) │ │ │ │ │ │ │ │ │ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │ │ │ │ 浏览器自动化引擎 │ │ │ │ RAG检索引擎 │ │ │ │ │ │ Playwright / Puppeteer │ │ │ │ Chroma / Milvus / Qdrant│ │ │ │ │ └─────────────────────────┘ │ │ └─────────────────────────┘ │ │ │ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │ │ │ │ 桌面自动化引擎 │ │ │ │ 向量嵌入模型 │ │ │ │ │ │ UIAutomation / ATX │ │ │ │ text-embedding-3-large │ │ │ │ │ │ Accessibility API │ │ │ │ BGE / JinaAI │ │ │ │ │ └─────────────────────────┘ │ │ └─────────────────────────┘ │ │ │ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │ │ │ │ 操作指令执行器 │ │ │ │ 知识图谱 (可选) │ │ │ │ │ │ Click/Type/Wait/Sleep │ │ │ │ Neo4j / TuGraph │ │ │ │ │ └─────────────────────────┘ │ │ └─────────────────────────┘ │ │ │ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │ │ │ │ 操作日志 & 录屏回放 │ │ │ │ 知识库管理后台 │ │ │ │ │ └─────────────────────────┘ │ │ │ 文档上传 / 分块 / 索引 │ │ │ │ └─────────────────────────────────┘ │ └─────────────────────────┘ │ │ │ └─────────────────────────────────┘ │ │ │ │ ┌─────────────────────────────────┐ ┌─────────────────────────────────┐ │ │ │ 💬 通信模块 │ │ 🔧 平台适配层 │ │ │ │ (Messaging & Communication) │ │ (Platform Adapter Layer) │ │ │ │ │ │ │ │ │ │ ┌─────────────────────────┐ │ │ ┌─────────────────────────┐ │ │ │ │ │ 微信/企微接入网关 │ │ │ │ 平台操作标准化接口 │ │ │ │ │ │ WeChat Work SDK │ │ │ │ Unified Action Protocol│ │ │ │ │ │ 第三方消息网关 │ │ │ └─────────────────────────┘ │ │ │ │ └─────────────────────────┘ │ │ ┌─────────────────────────┐ │ │ │ │ ┌─────────────────────────┐ │ │ │ 平台特定适配器 │ │ │ │ │ │ Webhook / 回调处理 │ │ │ │ 淘宝/抖音/拼多多/小红书│ │ │ │ │ └─────────────────────────┘ │ │ │ 企微/微信/钉钉 │ │ │ │ └─────────────────────────────────┘ └─────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────────────────────┐ │ 基础设施层 (Infrastructure Layer) │ │ │ │ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │ │ │ 🚀 计算资源 │ │ 📡 网络 & CDN │ │ 🔐 安全 & 权限 │ │ │ │ GPU集群/推理服务│ │ Nginx / API GW │ │ OAuth2 / JWT │ │ │ │ Ray / vLLM │ │ WAF / DDoS防护 │ │ RBAC / ABAC │ │ │ │ (可选: GPU云) │ │ 内网穿透/Tunnel │ │ 数据加密(AES256)│ │ │ └─────────────────┘ └─────────────────┘ └─────────────────┘ │ │ │ │ ┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐ │ │ │ 🗄️ 数据存储 │ │ 🔔 消息队列 │ │ 📊 监控 & 日志 │ │ │ │ PostgreSQL │ │ Redis Stream │ │ Prometheus │ │ │ │ Redis (缓存) │ │ RabbitMQ │ │ Grafana │ │ │ │ S3/MinIO(文件) │ │ Kafka (可选) │ │ ELK / Loki │ │ │ └─────────────────┘ └─────────────────┘ └─────────────────┘ │ │ │ │ ┌───────────────────────────────────────────────────────────────────────┐ │ │ │ ☁️ 容器 & 编排层 │ │ │ │ Docker / Docker Compose | Kubernetes (K8s) │ │ │ │ Helm Charts | Argo Workflows (任务编排) │ │ │ └───────────────────────────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────────────┘ ``` --- ## 3. 模块划分与职责 ### 3.1 视觉理解模块(看) **核心职责:** 作为系统的"眼睛",将屏幕内容转换为AI可理解的结构化信息。 | 子模块 | 职责 | 技术要点 | |-------|------|---------| | 屏幕截图采集 | 定时/事件触发截取屏幕或浏览器内容 | 全屏截图、区域截图、DOM截图 | | 多模态视觉理解 | 将截图输入视觉语言模型,输出结构化描述 | 元素识别、文本OCR、布局分析、图标识别 | | 动态元素定位 | 识别并定位可交互元素(按钮、输入框等) | 坐标映射、元素标签生成 | | 差异检测 | 对比操作前后的屏幕变化,判断操作是否成功 | 图像相似度计算、变更区域提取 | **关键技术能力:** - 支持 1920x1080 到 4K 多种分辨率 - 支持 60fps 流畅截图(Playwright内置) - 支持深色模式、弹窗等复杂UI识别 - 截图压缩与批量处理,减少token消耗 ### 3.2 Agent大脑模块(想) **核心职责:** 作为系统的"大脑",进行业务逻辑推理、决策和任务规划。 | 子模块 | 职责 | 技术要点 | |-------|------|---------| | 业务推理引擎 | 基于LLM进行业务逻辑推理 | CoT、ReAct、Tree-of-Thought prompting | | 任务规划器 | 将高层任务分解为可执行的原子操作步骤 | HaluPlan、LLM-based planning | | 工具调用系统 | 统一管理工具定义、调用和结果解析 | Function Calling、Tool schema registry | | 短期记忆 | 当前任务执行上下文(Conversation scope) | In-context memory, sliding window | | 长期记忆 | 跨会话的运营知识、用户偏好、历史经验 | Vector DB retrieval, summary | **Agent核心工作流:** ``` 用户指令 → 理解意图 → 任务分解 → 子任务分配 → 执行 → 验证 → 反馈 ↑ ↓ └──────────────── 异常/失败 → 反思重试 ←────────┘ ``` ### 3.3 控制执行模块(做) **核心职责:** 作为系统的"手",将Agent决策转化为实际的界面操作。 | 子模块 | 职责 | 技术要点 | |-------|------|---------| | 浏览器自动化引擎 | 操控Chrome等浏览器 | Playwright (首选)、Puppeteer | | 桌面自动化引擎 | 操控桌面应用和系统界面 | UIAutomation (Windows)、ATX (Android)、Accessibility API (macOS) | | 元素操作器 | 执行点击、输入、拖拽、滚动等操作 | 坐标操作、DOM操作、键盘鼠标模拟 | | 操作队列执行器 | 将操作按队列串行/并行执行 | Async execution, retry, timeout | | 操作日志与回放 | 记录所有操作,支持审计和回放 | 操作日志、屏幕录屏、断点重试 | **操作安全保障:** - 操作前截图确认(可选人工确认模式) - 高危操作(如支付、删除)二次验证 - 操作超时自动中断 - 操作日志完整记录可审计 ### 3.4 知识库模块 **核心职责:** 为Agent提供领域知识支撑,实现RAG(检索增强生成)增强的问答与推理。 | 子模块 | 职责 | 技术要点 | |-------|------|---------| | 文档处理管道 | 文档上传、解析、分块、清洗 | PDF解析、OCR、Markdown转换、语义分块 | | 向量索引管理 | 将文本块转为向量并建立索引 | Chroma (轻量)、Milvus (大规模)、HNSW | | 混合检索 | 关键词 + 向量 + 知识图谱混合检索 | BM25 + cosine similarity + Knowledge Graph | | 知识图谱 | 实体关系建模,支持复杂推理 | Neo4j / TuGraph (可选,Phase 2+) | | 知识库管理后台 | 知识库的增删改查、版本管理 | 版本控制、增量更新权限管理 | ### 3.5 通信模块(微信/企微) **核心职责:** 实现与用户的消息互通,支持微信、企业微信等主流通讯平台。 | 子模块 | 职责 | 技术要点 | |-------|------|---------| | 企微接入网关 | 企业微信消息接收与发送 | 企微SDK、webhook、回调处理 | | 微信接入网关 | 微信消息接收与发送(需注意官方政策) | 第三方网关(仅限合规用途) | | 消息路由 | 将消息分发到对应的Agent或任务 | 消息队列、路由规则 | | 消息格式化 | 富文本、卡片、图片等消息格式转换 | Markdown → XML、卡片模板 | | 指令解析 | 从自然语言消息中提取结构化指令 | Intent recognition、entity extraction | ### 3.6 调度编排模块 **核心职责:** 负责多Agent之间的任务协调、状态管理和资源分配。 | 子模块 | 职责 | 技术要点 | |-------|------|---------| | 任务调度器 | 接收任务请求、分配资源、触发执行 | Priority queue, cron scheduling | | 状态机引擎 | 管理任务和Agent的生命周期状态 | XState / 自研有限状态机 | | 多Agent协调 | 复杂任务的多Agent协作与信息共享 | Master-Slave / Hierarchical / Peer-to-Peer | | 异常恢复 | 失败任务自动重试、断点续传 | Exponential backoff, checkpoint | | 限流与配额 | 防止资源滥用,多租户资源隔离 | Token bucket, Redis计数器 | --- ## 4. 技术栈选型 ### 4.1 视觉理解模块 | 层级 | 推荐方案 | 说明 | |-----|---------|------| | **首选视觉模型** | **Qwen-VL2 / Qwen2-VL** | 阿里开源,性能强,中文理解好,成本低,可私有化部署 | | **备选视觉模型** | GPT-4V (OpenAI) / Claude-3-Vision (Anthropic) | 效果好但成本高,适合云端调用 | | **轻量模型** | LLaVA-1.6 / InternVL2 | 本地部署首选,INT4量化后可在消费级GPU运行 | | **OCR引擎** | PaddleOCR / EasyOCR | 高精度中文OCR,部署简单 | | **截图方案** | Playwright (浏览器) + pyscreenshot (桌面) | 跨平台,统一接口 | ### 4.2 Agent大脑模块 | 层级 | 推荐方案 | 说明 | |-----|---------|------| | **Agent框架** | **自研状态机 + LangChain备选** | 核心逻辑自研保证可控性;LangChain用于快速验证 | | **LLM推理** | **Qwen-Max (阿里云) / GPT-4o (OpenAI)** | 云端API,本地可部署 Qwen2.5-72B-Instruct | | **本地推理** | vLLM + Qwen2.5-72B | 高吞吐量推理引擎,支持OpenAI兼容API | | **Embedding模型** | text-embedding-3-large (OpenAI) / BGE-m3 | RAG检索用向量嵌入 | | **工具调用** | 自研 Tool Registry + Function Calling | 支持MCP (Model Context Protocol) 协议扩展 | ### 4.3 控制执行模块 | 场景 | 推荐方案 | 说明 | |-----|---------|------| | **Web自动化** | **Playwright** | 首选:功能强大、跨浏览器、支持录制、防检测 | | **备选Web自动化** | Puppeteer / Selenium | 生态成熟但防检测能力弱 | | **Windows桌面** | **UIAutomation** (Python uiautomation库) | Windows原生,稳定性好 | | **macOS桌面** | **PyATOM / Accessibility API** | macOS原生辅助功能 | | **Android自动化** | **ATX (Airtest)** | 游戏、App自动化测试 | | **操作队列** | **asyncio + Redis** | 高性能异步操作队列 | ### 4.4 知识库模块 | 场景 | 推荐方案 | 说明 | |-----|---------|------| | **向量数据库(轻量)** | **Chroma** | 部署最简单,适合中小规模数据,Python原生 | | **向量数据库(生产)** | **Milvus** | 大规模数据、高可用、生产首选 | | **备选向量库** | Qdrant / Weaviate | 性能优秀,Rust实现 | | **全文检索** | Elasticsearch / Meilisearch | 关键词检索与向量检索混合 | | **知识图谱** | Neo4j (云/私有) / TuGraph (阿里开源) | 可选,Phase 2+ 引入 | | **文档处理** | Unstructured.io / pdfplumber / RapidOCR | PDF/Word/Excel 多格式解析 | ### 4.5 消息队列 | 场景 | 推荐方案 | 说明 | |-----|---------|------| | **首选** | **Redis Streams** | 轻量、内嵌在Redis中,延迟最低,适合本项目规模 | | **异步任务队列** | **Celery + Redis** | Python生态成熟,任务调度功能完善 | | **消息总线** | **RabbitMQ** | 企业级消息中间件,适合多服务解耦 | | **日志收集** | **Kafka** (可选) | 超高吞吐,适合大量日志分析场景 | ### 4.6 基础设施与部署 | 层级 | 推荐方案 | 说明 | |-----|---------|------| | **容器化** | **Docker** | 应用容器化,标准化交付 | | **编排** | **Docker Compose (开发) / Kubernetes (生产)** | K8s用于多实例、高可用、弹性扩缩容 | | **对象存储** | **MinIO (私有) / S3 (云)** | 文件、日志、录屏存储 | | **关系数据库** | **PostgreSQL** | 主数据存储,事务支持 | | **缓存** | **Redis** | 会话缓存、限流、队列 | | **CI/CD** | GitHub Actions / GitLab CI | 自动化构建和部署 | | **日志** | Loki + Promtail + Grafana | 轻量级日志收集和可视化 | | **监控** | Prometheus + Grafana | 指标监控和告警 | --- ## 5. 实施路线图 ### Phase 1: MVP — 最简可用产品 ⭐ Week 0–4 **核心目标:** 验证"看→想→做"闭环可行性,完成核心链路的端到端跑通。 #### 目标场景 - 单一目标网站(如淘宝商家后台或指定后台管理系统) - 单Agent顺序执行 - 最基础的操作类型:点击、输入、提交 #### 技术重点 - Playwright 浏览器自动化接入 - Qwen-VL 视觉理解接入(API方式) - 单Agent状态机实现 - Redis 任务队列搭建 - 最小化知识库(纯对话式,无RAG) #### 交付物 | 交付物 | 验收标准 | |-------|---------| | 浏览器自动化SDK | 能操控指定网站的常见操作(登录、填表、提交) | | 视觉理解接口 | 给定截图能准确识别页面元素和内容 | | Agent核心程序 | 输入自然语言指令 → 截图 → 推理 → 执行 → 反馈 | | MVP管理后台 | 任务提交、状态查看、日志输出 | | 技术文档 | 模块接口文档、部署手册 | #### Week-by-Week 计划 ``` Week 1: 环境搭建 - 开发环境 Docker Compose 一键启动 - Playwright 浏览器环境配置 - Qwen-VL API 接入测试 - 单Agent状态机骨架代码 Week 2: 核心链路 - 截图 → 视觉理解 → 元素识别流程打通 - Agent推理链实现(LLM调用、Tool定义) - 操作执行器实现(Click/Type/Wait) - 串联测试:端到端跑通一个简单任务 Week 3: 完善与稳定 - 操作日志与录屏回放 - 异常处理与自动重试 - 简单任务管理后台(任务提交、状态查看) - 至少3个目标网站的适配测试 Week 4: MVP发布 - 内部测试与Bug修复 - 性能优化(截图压缩、LLM调用优化) - 编写部署文档和用户手册 - MVP评审汇报 ``` --- ### Phase 2: 核心能力建设 ⭐ Week 5–12 **核心目标:** 构建完整的多Agent调度系统,支持微信/企微接入和知识库RAG。 #### 技术重点 - 多Agent协作框架(任务分解 + 子Agent并行/串行执行) - 企业微信/微信消息接入 - RAG知识库系统(文档上传→分块→向量化→检索→增强问答) - 平台适配层抽象(统一接口 + 多平台适配器) - 操作成功率提升(防检测、重试策略、元素定位优化) #### 交付物 | 交付物 | 验收标准 | |-------|---------| | 多Agent调度系统 | 支持≥3个子Agent协作完成复合任务 | | 企微/微信消息接入 | 能接收用户消息并通过Agent处理回复 | | RAG知识库 | 支持PDF/Word文档上传,检索准确率≥80% | | 平台适配层 | 抽象统一接口,快速适配新平台 | | 运营监控面板 | 任务成功率、响应时间、Agent状态可视化 | | API开放接口 | RESTful API,支持第三方集成 | #### Week-by-Week 计划 ``` Week 5-6: 多Agent框架 - Agent注册与发现机制 - 任务分解引擎(LLM-based task decomposition) - 多Agent通信协议设计 - 并行/串行执行策略实现 Week 7-8: 通信模块 - 企微SDK接入(消息接收/发送) - 消息路由与指令解析 - 群聊/私聊消息分发逻辑 - 消息富文本卡片支持 Week 9-10: 知识库系统 - 文档解析管道(PDF/Word/Excel) - 语义分块策略与向量化 - Milvus 部署与索引配置 - RAG检索流程实现(Query改写 → 检索 → 重排序 → 生成) Week 11-12: 集成与稳定 - 全系统集成联调 - 平台适配层完善(目标平台适配器扩展) - 监控告警系统上线 - Phase 2 评审 ``` --- ### Phase 3: 产品化与商业化 ⭐ Week 13–24 **核心目标:** 从技术Demo到商业产品的跨越,实现多租户、UI完善和私有化部署能力。 #### 技术重点 - 完整的产品管理后台(用户管理、租户管理、计费) - 前端界面完善(可视化任务编排、低代码流程设计) - 多租户数据隔离 - 私有化部署方案(Kubernetes一键部署包) - 安全加固(数据加密、权限控制、操作审计) - Agent自我学习与优化(基于成功案例的Prompt优化) #### 交付物 | 交付物 | 验收标准 | |-------|---------| | 完整产品UI | 用户管理后台、任务编排界面、数据看板 | | 可视化流程编排器 | 拖拽式多步骤任务编排,支持条件分支 | | 多租户系统 | 租户隔离、资源配额、计费系统 | | 私有化部署包 | K8s Helm Chart,一键部署,企业内网可用 | | SDK发布 | Python SDK,支持第三方调用 | | 安全合规 | 等保/分保相关安全加固 | | 压力测试报告 | 100+并发Agent,稳定运行≥24h | #### Week-by-Week 计划 ``` Week 13-15: 产品UI - React/Vue 管理后台前端开发 - 可视化任务编排器(节点拖拽、连线、配置面板) - 用户注册/登录/权限管理 - 任务历史与数据分析面板 Week 16-18: 多租户与商业化 - 多租户数据库隔离方案(Schema per tenant) - 资源配额与计费模型 - API网关(限流、鉴权、审计日志) - 开放平台与Webhook Week 19-21: 私有化部署 - Kubernetes 部署方案设计 - Helm Chart 打包 - 私有化部署脚本(ansible/puppet) - 企业LDAP/SSO集成 - 安装部署文档与视频教程 Week 22-24: 商业化准备 - 完整产品文档(用户手册、API文档、运维手册) - 压力测试与性能优化 - 安全渗透测试与修复 - 灰度发布与反馈收集 - Phase 3 正式发布 ``` --- ## 6. 里程碑总览 | 里程碑 | 计划时间 | 关键交付内容 | 成功标准 | |:------:|:-------:|-------------|---------| | **M1: MVP** | Week 4 | 能完成简单自动化任务的最小可用产品 | 单网站"看→想→做"闭环跑通,成功率≥60% | | **M2: 通信接入** | Week 8 | Agent调度系统,支持企微/微信消息接入 | 消息收发正常,Agent能处理群聊/私聊指令 | | **M3: 知识库** | Week 12 | 知识库集成,RAG检索支持 | 文档检索准确率≥80%,能结合知识库回答业务问题 | | **M4: 生产就绪** | Week 20 | 多Agent协作,生产级稳定性 | 多Agent协作任务成功率≥85%,7x24稳定运行 | | **M5: 商业化** | Week 24→32 | 完整产品化,支持多租户和私有化部署 | 多租户隔离、SDK发布、私有化包可用 | --- ## 附录 ### A. 项目依赖关系图 ``` ┌─────────────────────────────────────────────────────────────┐ │ Phase 1 依赖 │ │ ┌────────────┐ │ │ │ Playwright │ ←── 浏览器自动化核心 │ │ └─────┬──────┘ │ │ ▼ │ │ ┌────────────┐ ┌────────────┐ │ │ │ Qwen-VL │ ←── │ LLM推理 │ (视觉理解 + 决策) │ │ └─────┬──────┘ └─────┬──────┘ │ │ ▼ ▼ │ │ ┌─────────────────────────────────────┐ │ │ │ 单Agent状态机 │ │ │ └──────────────────┬──────────────────┘ │ │ ▼ │ │ ┌─────────────────────────────────────┐ │ │ │ Redis 任务队列 │ │ │ └──────────────────┬──────────────────┘ │ │ ▼ │ │ ┌─────────────────────────────────────┐ │ │ │ MVP 管理后台 (最小版) │ │ │ └─────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────┘ Phase 2 依赖 Phase 1: └─ 多Agent调度 ← 单Agent状态机 (已验证) └─ 企微接入 ← 消息队列 (已搭建) └─ RAG ← LLM推理 + 向量数据库 Phase 3 依赖 Phase 2: └─ 多租户 ← 已有任务队列 + 数据库设计 └─ 私有化 ← Docker/K8s (Phase1已有基础) ``` ### B. 关键技术风险与应对 | 风险 | 影响 | 应对策略 | |-----|-----|---------| | 视觉模型误识别 | 操作元素定位错误 | 多帧确认 + 备用定位策略(XPath/CSS)| | LLM推理延迟高 | 任务执行慢 | 流式输出 + 本地量化模型备用 | | 平台反爬/防自动化 | 账号被封 | 随机延迟 + 行为模拟 + 代理IP池 | | 企微API限制 | 消息频率受限 | 消息合并 + 本地缓存 + 限流控制 | | 多Agent状态一致 | 协作任务数据不一致 | 分布式锁 + 事务性设计 + 幂等操作 | ### C. 团队规模建议 | 阶段 | 人数 | 角色 | |-----|-----|-----| | Phase 1 | 3-4人 | 后端×1(Browser/Agent),AI×1(视觉/LLM),全栈×1(后台/集成) | | Phase 2 | 6-8人 | Phase1团队 + 后端×2(通信/平台适配),AI×1(RAG) | | Phase 3 | 10-15人 | Phase2团队 + 前端×2(产品UI),DevOps×1,安全×1,产品×1 | --- *文档版本:v1.0 | 最后更新:2026-04-07*