Windows-MCP:让AI直接操作你的Windows系统
是一个轻量级的开源项目,它作为MCP(Model Context Protocol)服务器,在AI代理和Windows操作系统之间架起了一座桥梁。与许多自动化工具不同,Windows-MCP不依赖传统的计算机视觉技术或特定的微调模型。• Windows默认语言为英语,或禁用MCP服务器中的Launch-Tool和Resize-Tool。• Type-Tool主要用于输入文本,不适合在IDE中编程(
什么是Windows-MCP?
Windows-MCP 是一个轻量级的开源项目,它作为MCP(Model Context Protocol)服务器,在AI代理和Windows操作系统之间架起了一座桥梁。通过这个工具,AI代理可以直接与Windows系统交互,执行各种自动化任务。
演示视频
核心特性
🎯 无缝Windows集成
-
• 与Windows UI元素原生交互
-
• 打开应用程序、控制窗口
-
• 模拟用户输入操作
-
• 支持文件导航和管理
🤖 支持任意LLM
与许多自动化工具不同,Windows-MCP不依赖传统的计算机视觉技术或特定的微调模型。它可以使用任何LLM,降低了复杂性和设置时间。
🛠️ 丰富的UI自动化工具集
-
• 基础键盘和鼠标操作
-
• 窗口/UI状态捕获
-
• 实时交互(典型延迟0.7-2.5秒)
🔧 轻量级和可扩展
-
• 最小依赖
-
• 易于设置
-
• 完全开源(MIT许可证)
-
• 可根据需求自定义和扩展
支持的MCP工具
Windows-MCP提供了以下工具来与Windows交互:
-
• Click-Tool: 在指定坐标点击屏幕
-
• Type-Tool: 在元素上输入文本(可选择清除现有文本)
-
• Clipboard-Tool: 使用系统剪贴板复制或粘贴
-
• Scroll-Tool: 在窗口或特定区域垂直或水平滚动
-
• Drag-Tool: 从一个点拖拽到另一个点
-
• Move-Tool: 移动鼠标指针
-
• Shortcut-Tool: 按下键盘快捷键(Ctrl+c、Alt+Tab等)
-
• Key-Tool: 按下单个键
-
• Wait-Tool: 暂停指定时间
-
• State-Tool: 获取默认语言、浏览器、活动应用程序和交互式、文本和可滚动元素的组合快照,以及桌面截图
-
• Resize-Tool: 更改应用程序的窗口大小或位置
-
• Launch-Tool: 从开始菜单启动应用程序
-
• Shell-Tool: 执行PowerShell命令
-
• Scrape-Tool: 抓取整个网页信息
系统要求
前置条件
-
• Python 3.13+
-
• Anthropic Claude Desktop应用或其他MCP客户端
-
• UV(包管理器),通过
pip install uv安装 -
• DXT(桌面扩展),通过
npm install -g @anthropic-ai/dxt安装 -
• Windows默认语言为英语,或禁用MCP服务器中的Launch-Tool和Resize-Tool
快速开始
Gemini CLI集成
-
1. 在文件资源管理器中导航到
%USERPROFILE%/.gemini并打开settings.json -
2. 在
settings.json中添加windows-mcp配置并保存:
{
"theme":"Default",
"mcpServers":{
"windows-mcp":{
"command":"uv",
"args":[
"--directory",
"<windows-mcp目录的路径>",
"run",
"main.py"
]
}
}
}
-
3. 在终端中重新运行Gemini CLI,开始使用!
Claude Desktop集成
-
1. 克隆仓库:
git clone https://github.com/CursorTouch/Windows-MCP.git
cd Windows-MCP
-
2. 构建桌面扩展DXT:
npx @anthropic-ai/dxt pack
-
3. 打开Claude Desktop:
-
• 进入设置 -> 扩展 -> 安装扩展(定位.dxt文件)-> 安装
实际应用场景
自动化测试
-
• 应用程序UI测试
-
• 功能验证
-
• 回归测试
工作流程自动化
-
• 文件处理
-
• 应用程序操作
-
• 数据录入
远程控制
-
• 通过SSH远程操作电脑
-
• 移动设备控制桌面
-
• 跨平台任务执行
注意事项
⚠️ 安全提醒
此MCP直接与Windows操作系统交互以执行操作。请谨慎使用,避免在无法承受此类风险的环境中部署。
📝 当前限制
-
• 在段落中选择特定文本部分(正在开发中)
-
• Type-Tool主要用于输入文本,不适合在IDE中编程(正在开发中)
相关资源
-
• Windows-MCP GitHub仓库[1]
-
• MCP官方文档[2]
-
• Claude Desktop集成指南[3]
项目信息
|
项目名称 |
Windows-MCP |
|---|---|
|
开源协议 |
MIT License |
|
GitHub Stars |
2k+ |
|
项目地址 |
https://github.com/CursorTouch/Windows-MCP |
|
所属公司 |
CursorTouch |
|
支持系统 |
Windows 7/8/8.1/10/11 |
|
编程语言 |
Python |
引用链接
[1] Windows-MCP GitHub仓库: https://github.com/CursorTouch/Windows-MCP[2] MCP官方文档: https://modelcontextprotocol.io/[3] Claude Desktop集成指南: https://docs.anthropic.com/claude/docs/claude-desktop-extensions
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)