计算机控制MCP
MCP 服务器使用 PyAutoGUI、RapidOCR 和 ONNXRuntime 提供计算机控制功能,例如鼠标、键盘、OCR 等。类似于 Anthropic 的“computer-use”。零外部依赖。
仅在 Windows 上测试。其他平台也应该可以运行。

快速使用(使用uvx设置 MCP)
或者使用pip全局安装:
然后使用以下命令运行服务器:
Related MCP server: PyAutoGUI MCP Server
特征
控制鼠标移动和点击
在当前光标位置输入文本
截取整个屏幕或特定窗口的屏幕截图,并可选择保存到下载目录
使用 OCR(光学字符识别)从屏幕截图中提取文本
列出并激活窗口
按键盘键
拖放操作
可用工具
鼠标控制
click_screen(x: int, y: int):点击指定的屏幕坐标move_mouse(x: int, y: int):将鼠标光标移动到指定坐标drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5):将鼠标从一个位置拖动到另一个位置
键盘控制
type_text(text: str):在当前光标位置输入指定的文本press_key(key: str):按下指定的键盘键
屏幕和窗口管理
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False):使用可选 OCR 捕获屏幕或窗口get_screen_size():获取当前屏幕分辨率list_windows():列出所有打开的窗口activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60):将指定窗口置于前台
发展
设置开发环境
运行测试
API 参考
有关可用函数和类的详细信息,请参阅API 参考。
执照
麻省理工学院