# WeChat Agent - Windows 微信客户端 AI 自动化 基于视觉 AI 的 Windows 微信客户端自动化系统,实现消息识别与自动回复。 ## 项目概述 本项目实现对 Windows 微信客户端的 AI 自动化控制: - **信息获取**:通过视觉识别获取聊天记录、用户信息、消息内容 - **自动回复**:基于规则/AI 判断自动发送消息 - **纯视觉方案**:不依赖微信 API,通过屏幕截图 + VLM 识别 + 自动操作 ## 技术架构 ``` 微信Windows客户端(截图) ↓ UIAutomation + 屏幕截图 ↓ Qwen-VL2 视觉理解 ↓ LLM 推理判断 ↓ UIAutomation 执行操作 ↓ 微信客户端(发送) ``` ## 核心模块 | 模块 | 说明 | |-----|------| | `vlm` | 视觉模型接口(Qwen-VL2) | | `wechat` | 微信客户端控制(UIAutomation) | | `core` | 核心引擎(消息捕获、回复判断) | | `agent` | AI Agent 逻辑 | | `ui` | 桌面 UI 界面 | | `config` | 配置管理 | ## 技术栈 - **语言**: Python 3.10+ - **视觉模型**: Qwen-VL2(本地部署) - **Windows 控制**: UIAutomation (PyWinAuto) - **LLM**: OpenAI 兼容 API - **桌面 UI**: PyQt6 / Tkinter ## 快速开始 ### 环境要求 - Windows 10/11 - Python 3.10+ - 微信 Windows 客户端 3.8.x(推荐) - Qwen-VL2 模型(本地部署) ### 安装 ```bash pip install -r requirements.txt ``` ### 配置 ```bash cp config.example.yaml config.yaml # 编辑 config.yaml 填入 API 配置 ``` ### 运行 ```bash python src/main.py ``` ## MVP 功能 ### Phase 1(本期) - [ ] 微信窗口识别 - [ ] 聊天记录截图识别 - [ ] 用户信息识别 - [ ] 关键词自动回复 - [ ] 定时轮询机制 ### Phase 2(后续) - [ ] 知识库集成 - [ ] 多账号管理 - [ ] 复杂对话上下文 ## 参考项目 - [thiflow-research](http://192.168.5.5:3000/jesxion/thiflow-research) - Thiflow 产品研究 - [thiflow.com](https://thiflow.com/) - 参考产品 ## License MIT