Skip to main content
Glama

Smooth Operator Agent Tools

MCP サーバーを探している場合は、ここ で検索してください

Python ライブラリを探しているなら、どうぞ。 ;)

Smooth Operator エージェントツール - Python ライブラリ

これは、Windows システム上でコンピュータ使用エージェントを開発するプログラマ向けの最先端のツールキットである Smooth Operator Agent Tools の公式 Python ライブラリ実装です。

概要

Smooth Operator エージェント ツールは、Windows オートメーション ツリーおよび Playwright ブラウザー コントロールと対話する複雑なタスクを処理する強力なツールキットであり、スクリーンショットやテキストの説明による UI 要素の識別などの高度な AI 機能も提供します。

この Python ライブラリは、Smooth Operator Tools Server API の便利なラッパーを提供するため、これらの機能を Python アプリケーションに簡単に統合できます。

すべての機能は、コードに実装する前に、便利なWindowsユーザーインターフェースでテストおよび探索できます。Smooth Operator Tools UIでお試しください。

インストール

pip install smooth-operator-agent-tools

前提条件

グーグルクローム

Smooth Operator Agent Tools ライブラリでは、ブラウザ自動化機能が動作するために、システムに Google Chrome (または互換性のある Chromium ベースのブラウザ) がインストールされている必要があります。

サーバーのインストール

Smooth Operatorクライアントライブラリには、アプリケーションデータディレクトリにインストールする必要があるサーバーコンポーネントが含まれています。サーバーファイルはライブラリにパッケージ化されており、初回使用時に自動的に解凍されます。

初回実行

ライブラリを初めて使用する場合、次の処理が自動的に行われます。

  1. %APPDATA%\SmoothOperator\AgentToolsServerディレクトリ(または OS 上の同等のディレクトリ)を作成します。
  2. パッケージからサーバーファイルを抽出する
  3. サーバープロセスを開始する

Chrome の自動化機能が動作するには、前提条件セクションの説明に従って Node.js と Playwright がインストールされていることを確認する必要があります。

アプリケーションインストーラー向け

このライブラリを含むアプリケーションインストーラを作成する場合は、ユーザーエクスペリエンスを向上させるために、アプリケーションのインストールプロセス中にNode.jsとPlaywrightをインストールする手順を含める必要があります。必要なインストール手順については、「前提条件」セクションを参照してください。

使用法

from smooth_operator_agent_tools import SmoothOperatorClient # Initialize the client with your API key, get it for free at https://screengrasp.com/api.html client = SmoothOperatorClient(api_key="YOUR_API_KEY") # Start the Server - this takes a moment client.start_server() # Take a screenshot screenshot = client.screenshot.take() # Get system overview overview = client.system.get_overview() # Perform a mouse click client.mouse.click(500, 300) # Find and click a UI element by description client.mouse.click_by_description("Submit button") # Type text client.keyboard.type("Hello, world!") # Control Chrome browser client.chrome.open_chrome("https://www.example.com") client.chrome.get_dom() # You can also use the to_json_string() method on many objects # to get a JSON string that can easily be used in a prompt to a LLM # to utilize AI even more for automated decision making

特徴

  • スクリーンショットと分析: スクリーンショットをキャプチャし、UI要素を分析します
  • マウスコントロール: 座標またはAIによる要素検出を使用した正確なマウス操作
  • キーボード入力: テキストを入力し、キーの組み合わせを送信します
  • Chrome ブラウザ コントロール: 要素をナビゲートし、操作し、JavaScript を実行します
  • Windows オートメーション: Windows アプリケーションおよび UI 要素と対話する
  • システム操作: アプリケーションを開いてシステム状態を管理する

ドキュメント

詳細な API ドキュメントについては、以下をご覧ください。

  • **使用ガイド:**一般的な使用ケースの詳細な例と説明。
  • **サンプル プロジェクト:**ダウンロードし、ステップ バイ ステップの指示に従って、最初の自動化を数分で実行します。
  • **ドキュメント:**内部で作業を行っているサーバーのすべての API エンドポイントの詳細なドキュメント。

ライセンス

このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Windows自動化MCPオファリング

  • AIビジョン(例:説明によるクリック)
  • Windows UI オートメーション ツリー ツール
  • Playwright による Chrome オートメーション
  • マウス操作
  • キーボードコントロール
  • さらに多くのツール(40種類以上)

また、すべてのツールを試すための Python/TypeScript/C# クライアント ライブラリと Windows デスクトップ ツールも付属しています。

  1. Smooth Operator エージェントツール - Python ライブラリ
    1. 概要
    2. インストール
    3. 前提条件
    4. サーバーのインストール
    5. 使用法
    6. 特徴
    7. ドキュメント
    8. ライセンス

Related MCP Servers

  • -
    security
    A
    license
    -
    quality
    Enables browser automation using the Selenium WebDriver through MCP, supporting browser management, element location, and both basic and advanced user interactions.
    Last updated -
    867
    225
    JavaScript
    MIT License
  • A
    security
    A
    license
    A
    quality
    A MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.
    Last updated -
    8
    Python
    Apache 2.0
    • Apple
  • -
    security
    A
    license
    -
    quality
    An MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.
    Last updated -
    8
    Python
    MIT License
    • Apple
    • Linux
  • -
    security
    A
    license
    -
    quality
    Provides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.
    Last updated -
    26
    Python
    MIT License
    • Apple
    • Linux

View all related MCP servers

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/fstandhartinger/smooth-operator-client-python'

If you have feedback or need assistance with the MCP directory API, please join our Discord server