Skip to main content
Glama

MCP Desktop Automation

MCP 桌面自动化

一个模型上下文协议 (LLM) 服务器,使用 RobotJS 和屏幕截图功能提供桌面自动化功能。该服务器使 LLM 能够控制鼠标移动、键盘输入以及捕获桌面环境的屏幕截图。

使用桌面自动化服务器的配置

以下是如何配置 Claude Desktop 以使用 MCP 桌面自动化服务器:

NPX

{ "mcpServers": { "desktop-automation": { "command": "npx", "args": ["-y", "mcp-desktop-automation"] } } }

权限

此服务器需要系统级权限才能:

  • 截取屏幕截图

  • 控制鼠标移动和点击

  • 模拟键盘输入

首次使用此服务器运行 Claude Desktop 时,您可能需要在操作系统的安全设置中授予这些权限。

Related MCP server: AI Vision Debug MCP Server

限制

虽然该服务器可与各种 MCP 客户端配合使用,但它主要通过 Claude Desktop 进行测试。

重要提示:当前实现的响应大小限制为 1MB。对于屏幕截图,这意味着:

  • 高分辨率截图可能会超出此限制并失败

  • 测试表明 800x600 分辨率可靠

  • 如果遇到问题,请考虑降低屏幕分辨率或捕获特定的屏幕区域

要求

  • Node.js(>=14.x)

成分

工具

  • 获取屏幕尺寸

    • 获取屏幕尺寸

    • 无需输入参数

  • 屏幕截图

    • 捕获当前屏幕内容

    • 无需输入参数

  • 键盘按下

    • 按下键盘上的某个键或组合键

    • 输入:

      • key (字符串,必需):要按下的键(例如,“enter”,“a”,“control”)

      • modifiers (字符串数组,可选):按下按键时需要按住的修饰键。可能的值包括:“control”、“shift”、“alt”、“command”

  • 键盘类型

    • 在当前光标位置输入文本

    • 输入: text (字符串,必需):要输入的文本

  • 鼠标点击

    • 执行鼠标点击

    • 输入:

      • button (字符串,可选,默认值:“left”):鼠标点击按钮。可能的值:“left”、“right”、“middle”

      • double (布尔值,可选,默认值:false):是否执行双击

  • 鼠标移动

    • 将鼠标移动到指定坐标

    • 输入:

      • x (数字,必需):X 坐标

      • y (数字,必需):Y 坐标

资源

服务器提供对屏幕截图的访问:

  1. 截图列表screenshot://list

    • 按名称列出所有可用的屏幕截图

  2. 屏幕截图内容screenshot://{id}

    • 截图的 PNG 图像

    • 可通过屏幕截图 ID 访问(基于时间戳的命名)

主要特点

  • 桌面鼠标控制

  • 键盘输入模拟

  • 屏幕尺寸检测

  • 截图功能

  • 简单的 JSON 响应格式

执照

此 MCP 服务器采用 MIT 许可证。这意味着您可以自由使用、修改和分发该软件,但须遵守 MIT 许可证的条款和条件。更多详情,请参阅项目仓库中的 LICENSE 文件。

-
security - not tested
A
license - permissive license
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/tanob/mcp-desktop-automation'

If you have feedback or need assistance with the MCP directory API, please join our Discord server