MCP サーバーを探している場合は、ここ で検索してください。
Python ライブラリを探しているなら、どうぞ。 ;)
Smooth Operator エージェントツール - Python ライブラリ
これは、Windows システム上でコンピュータ使用エージェントを開発するプログラマ向けの最先端のツールキットである Smooth Operator Agent Tools の公式 Python ライブラリ実装です。
概要
Smooth Operator エージェント ツールは、Windows オートメーション ツリーおよび Playwright ブラウザー コントロールと対話する複雑なタスクを処理する強力なツールキットであり、スクリーンショットやテキストの説明による UI 要素の識別などの高度な AI 機能も提供します。
この Python ライブラリは、Smooth Operator Tools Server API の便利なラッパーを提供するため、これらの機能を Python アプリケーションに簡単に統合できます。
すべての機能は、コードに実装する前に、便利なWindowsユーザーインターフェースでテストおよび探索できます。Smooth Operator Tools UIでお試しください。
インストール
前提条件
グーグルクローム
Smooth Operator Agent Tools ライブラリでは、ブラウザ自動化機能が動作するために、システムに Google Chrome (または互換性のある Chromium ベースのブラウザ) がインストールされている必要があります。
サーバーのインストール
Smooth Operatorクライアントライブラリには、アプリケーションデータディレクトリにインストールする必要があるサーバーコンポーネントが含まれています。サーバーファイルはライブラリにパッケージ化されており、初回使用時に自動的に解凍されます。
初回実行
ライブラリを初めて使用する場合、次の処理が自動的に行われます。
%APPDATA%\SmoothOperator\AgentToolsServer
ディレクトリ(または OS 上の同等のディレクトリ)を作成します。- パッケージからサーバーファイルを抽出する
- サーバープロセスを開始する
Chrome の自動化機能が動作するには、前提条件セクションの説明に従って Node.js と Playwright がインストールされていることを確認する必要があります。
アプリケーションインストーラー向け
このライブラリを含むアプリケーションインストーラを作成する場合は、ユーザーエクスペリエンスを向上させるために、アプリケーションのインストールプロセス中にNode.jsとPlaywrightをインストールする手順を含める必要があります。必要なインストール手順については、「前提条件」セクションを参照してください。
使用法
特徴
- スクリーンショットと分析: スクリーンショットをキャプチャし、UI要素を分析します
- マウスコントロール: 座標またはAIによる要素検出を使用した正確なマウス操作
- キーボード入力: テキストを入力し、キーの組み合わせを送信します
- Chrome ブラウザ コントロール: 要素をナビゲートし、操作し、JavaScript を実行します
- Windows オートメーション: Windows アプリケーションおよび UI 要素と対話する
- システム操作: アプリケーションを開いてシステム状態を管理する
ドキュメント
詳細な API ドキュメントについては、以下をご覧ください。
- **使用ガイド:**一般的な使用ケースの詳細な例と説明。
- **サンプル プロジェクト:**ダウンロードし、ステップ バイ ステップの指示に従って、最初の自動化を数分で実行します。
- **ドキュメント:**内部で作業を行っているサーバーのすべての API エンドポイントの詳細なドキュメント。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Windows自動化MCPオファリング
- AIビジョン(例:説明によるクリック)
- Windows UI オートメーション ツリー ツール
- Playwright による Chrome オートメーション
- マウス操作
- キーボードコントロール
- さらに多くのツール(40種類以上)
また、すべてのツールを試すための Python/TypeScript/C# クライアント ライブラリと Windows デスクトップ ツールも付属しています。
Related MCP Servers
- -securityAlicense-qualityEnables browser automation using the Selenium WebDriver through MCP, supporting browser management, element location, and both basic and advanced user interactions.Last updated -867225JavaScriptMIT License
- AsecurityAlicenseAqualityA MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.Last updated -8PythonApache 2.0
- -securityAlicense-qualityAn MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.Last updated -8PythonMIT License
- -securityAlicense-qualityProvides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.Last updated -26PythonMIT License