Files
Xiaomai 07f9c82936 新增:微信 macOS 自动化实现方案
- macOS Accessibility API 详解
- WeChat-MCP 项目分析
- macOS 微信自动化代码示例
- Windows/macOS 双平台对比
- 混合架构推荐方案
- 微信版本兼容性说明
2026-04-07 13:10:02 +08:00
..

05-实现方案

快速落地路径

阶段一最小可用产品1-2周

目标:用现有工具实现核心功能

技术栈:
├── 视觉GPT-4V / Qwen-VL API
├── 控制PlaywrightCDP
├── AgentLangChain / 自研简单调度
└── 微信UIAutomationWindows

实现步骤

  1. 环境搭建

    pip install playwright
    playwright install chromium
    
  2. 视觉理解

    # 截图 → GPT-4V理解 → 返回操作指令
    response = gpt4v.analyze(image= screenshot, prompt= "描述页面内容")
    
  3. 操作执行

    # Playwright CDP 控制
    page.click("button:has-text('发送')")
    page.fill("textarea", "消息内容")
    
  4. 微信控制

    # UIA 读取微信
    import uiautomation as auto
    wechat = auto.WindowControl(Name="微信")
    

阶段二核心能力优化1-2月

目标:提升稳定性,降低成本

2.1 视觉模型优化

自研VL模型轻量级
├── 数据采集运营场景UI截图
├── 模型选型LLaVA / Qwen-VL 微调
└── 部署本地GPU / 云服务

2.2 控制层增强

CDP + 视觉双重校验
├── CDP获取DOM/坐标
├── 视觉验证元素位置
└── 双重确认后执行

2.3 Agent调度优化

引入状态机
├── 任务规划
├── 步骤执行
├── 结果校验
└── 异常恢复

阶段三:产品化(长期)

目标:稳定的商业产品

  • 用户界面开发
  • 知识库功能完善
  • 多租户支持
  • 私有化部署方案

技术方案详解

方案A快速验证基于Playwright + GPT-4V

┌─────────────────────────────────────────┐
│              用户指令                     │
│         "帮我发微信给张三"                │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│         GPT-4V 视觉理解                   │
│    截图 → 分析页面 → 生成操作步骤          │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│           Playwright 执行                │
│   page.click() / page.fill() / type()   │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│            结果验证                       │
│        截图 → GPT-4V验证 → 完成           │
└─────────────────────────────────────────┘

优点:快速出原型 缺点依赖OpenAI API有封号风险


方案B稳定版UIA + 自研VL

┌─────────────────────────────────────────┐
│              用户指令                     │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│         自研视觉模型(本地)               │
│    截图 → UI元素检测 → 结构化输出         │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│          UIAutomation 执行               │
│   读文本 / 点击按钮 / 填写输入框          │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│            结果验证                       │
│       UIA读结果 → 确认完成                │
└─────────────────────────────────────────┘

优点稳定、合规、无API依赖 缺点:开发周期长


方案C混合方案推荐

┌─────────────────────────────────────────┐
│              用户指令                     │
└─────────────────┬───────────────────────┘
                  ↓
        ┌─────────┴─────────┐
        ↓                   ↓
┌───────────────┐   ┌───────────────┐
│ UIA读取UI树   │   │ 视觉模型辅助   │
│ (快速结构化)  │ + │ (复杂内容理解) │
└───────────────┘   └───────────────┘
        ↓                   ↓
        └─────────┬─────────┘
                  ↓
┌─────────────────────────────────────────┐
│         AI 决策 + 执行计划                │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│          UIA / CDP 执行                  │
└─────────────────────────────────────────┘

优点:稳定 + 智能兼顾 缺点:架构复杂度高


关键技术选型建议

模块 推荐方案 理由
视觉模型 Qwen-VL开源 中文好,成本低
控制层 Playwright + CDP 成熟稳定
Agent框架 LangChain / 自研 简单场景够用
微信控制Windows UIAutomation Windows官方合规
微信控制macOS Accessibility API + WeChat-MCP macOS官方方案
知识库 Milvus / Chroma 开源成熟
部署 Docker 便于分发

微信自动化(跨平台)

微信自动化支持 WindowsmacOS 两个平台:

Windows 平台

详见 03-核心技术

  • UIAutomationWindows 官方 API稳定合规
  • 读取消息、点击按钮、输入文字

macOS 平台

详见 微信macOS自动化

  • Accessibility APImacOS 官方 API
  • WeChat-MCPPython 项目,支持 MCP 协议
  • macos-wechat-cliSwift 项目CLI 方式

macOS 推荐架构

┌─────────────────────────────────────────┐
│         消息接收chatlog-bot            │
│           (数据库 Webhook)               │
└─────────────────┬───────────────────────┘
                  ↓
│         AI 处理消息                       │
└─────────────────┬───────────────────────┘
                  ↓
┌─────────────────────────────────────────┐
│     消息发送WeChat-MCP / Accessibility  │
│           (macOS 原生操作)                │
└─────────────────────────────────────────┘

⚠️ 微信版本注意

版本 兼容性 说明
3.8.x 最好 推荐锁定此版本
4.0+ ⚠️ 受限 UI 结构变化大,部分操作失效

避坑指南

  1. 不要一开始就自研VL模型

    • 成本高周期长
    • 先用API验证功能
  2. 不要用Hook方式控制微信

    • 有封号风险
    • 版本更新容易失效
  3. 不要做通用平台

    • 专注一个场景
    • 先跑通再扩展
  4. 重视异常处理

    • 页面结构可能变化
    • 需要重试/回退机制