Skip to main content
Glama

Computer Control MCP

by AB498

컴퓨터 제어 MCP

PyAutoGUI, RapidOCR, ONNXRuntime을 사용하여 마우스, 키보드, OCR 등의 컴퓨터 제어 기능을 제공하는 MCP 서버입니다. Anthropic의 'computer-use'와 유사하며 외부 종속성이 없습니다.

  • Windows에서만 테스트되었습니다. 다른 플랫폼에서도 작동할 것입니다.

MCP 컴퓨터 제어 데모

빠른 사용법( uvx 사용한 MCP 설정)

지엑스피1

또는 pip 사용하여 전역적으로 설치합니다.

pip install computer-control-mcp

그런 다음 다음을 사용하여 서버를 실행합니다.

computer-control-mcp # instead of uvx computer-control-mcp, so you can use the latest version, also you can `uv cache clean` to clear the cache and `uvx` again to use latest version.

특징

  • 마우스 움직임과 클릭을 제어합니다
  • 현재 커서 위치에 텍스트를 입력하세요
  • 다운로드 디렉토리에 선택적으로 저장하여 전체 화면 또는 특정 창의 스크린샷을 찍을 수 있습니다.
  • OCR(광학 문자 인식)을 사용하여 스크린샷에서 텍스트 추출
  • 창 나열 및 활성화
  • 키보드 키를 누르세요
  • 드래그 앤 드롭 작업

사용 가능한 도구

마우스 제어

  • click_screen(x: int, y: int) : 지정된 화면 좌표를 클릭합니다.
  • move_mouse(x: int, y: int) : 마우스 커서를 지정된 좌표로 이동합니다.
  • drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5) : 마우스를 한 위치에서 다른 위치로 드래그합니다.

키보드 제어

  • type_text(text: str) : 현재 커서 위치에 지정된 텍스트를 입력합니다.
  • press_key(key: str) : 지정된 키보드 키를 누릅니다.

화면 및 창 관리

  • take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False) : OCR 옵션을 사용하여 화면이나 창을 캡처합니다.
  • get_screen_size() : 현재 화면 해상도를 가져옵니다.
  • list_windows() : 열려 있는 모든 창을 나열합니다
  • activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60) : 지정된 창을 포그라운드로 가져옵니다.

개발

개발 환경 설정

# Clone the repository git clone https://github.com/AB498/computer-control-mcp.git cd computer-control-mcp # Install in development mode pip install -e . # Start server python -m computer_control_mcp.core

테스트 실행

python -m pytest

API 참조

사용 가능한 함수와 클래스에 대한 자세한 내용은 API 참조를 확인하세요.

특허

MIT

더 많은 정보나 도움이 필요하시면

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

통합 API를 통해 마우스 움직임, 키보드 동작, OCR을 통한 스크린샷 캡처, 창 관리 등의 컴퓨터 제어 기능을 제공하는 MCP 서버입니다.

  1. PyAutoGUI, RapidOCR, ONNXRuntime을 사용하여 마우스, 키보드, OCR 등의 컴퓨터 제어 기능을 제공하는 MCP 서버입니다. Anthropic의 'computer-use'와 유사하며 외부 종속성이 없습니다.
    1. 빠른 사용법( uvx 사용한 MCP 설정)
      1. 특징
        1. 사용 가능한 도구
          1. 마우스 제어
          2. 키보드 제어
          3. 화면 및 창 관리
        2. 개발
          1. 개발 환경 설정
          2. 테스트 실행
        3. API 참조
          1. 특허
            1. 더 많은 정보나 도움이 필요하시면

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                An MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.
                Last updated -
                8
                Python
                MIT License
                • Apple
                • Linux
              • -
                security
                A
                license
                -
                quality
                Provides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.
                Last updated -
                26
                Python
                MIT License
                • Apple
                • Linux
              • A
                security
                A
                license
                A
                quality
                An MCP server providing web development tools such as screen capturing capabilities that let AI agents take and work with screenshots of the user's screen.
                Last updated -
                2
                678
                15
                MIT License
                • Apple
              • -
                security
                F
                license
                -
                quality
                An MCP server that allows users to interact with their browser through natural language commands, enabling actions like getting page content as markdown, modifying page styles, and searching browser history.
                Last updated -
                1
                TypeScript

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/AB498/computer-control-mcp'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server