ブラウザ使用サーバー
Pythonスクリプトを使用したブラウザ自動化のためのモデルコンテキストプロトコルサーバー。Clineで使用
特徴
ブラウザ操作
screenshot
: ウェブページ(全ページまたはビューポート)のスクリーンショットをキャプチャしますget_html
: ウェブページのHTMLコンテンツを取得するexecute_js
: ウェブページでJavaScriptを実行するget_console_logs
: Webページからコンソールログを取得する
すべての操作は、ページの読み込み後のカスタム インタラクション ステップ (要素のクリック、スクロールなど) をサポートします。
前提条件
- (オプションですが推奨) ヘッドレス ブラウザ自動化用に Xvfb をインストールします。
Xvfb(X Virtual Frame Buffer)は仮想ディスプレイを作成し、ボットとして検知されることなくブラウザの自動化を可能にします。Xvfbの詳細については、こちらをご覧ください。
- MinicondaまたはAnacondaをインストールする
- Conda 環境を作成します。
- LLM 構成をセットアップします。
サーバーは複数のLLMプロバイダーをサポートしています。以下のAPIキーのいずれかを使用できます。
サーバーは最初に見つかった利用可能なAPIキーを自動的に使用します。オプションで、環境変数を使用して、プロバイダーのモデルとベースURLをカスタマイズできます。
インストール
Smithery経由でインストール
Smithery経由で Claude Desktop 用の Browser Use Server を自動的にインストールするには:
- このリポジトリを
/home/YOUR_HOME/Documents/Cline/
ディレクトリにクローンします。 - 依存関係をインストールします:
- サーバーを構築します。
MCP構成
Cline MCP 設定に次の構成を追加します。
交換する:
YOUR_HOME
実際のホームディレクトリ名に置き換えますyour_api_key
実際の API キーに置き換えます
使用法
サーバーを実行します。
サーバーは stdio で利用可能になり、次の操作をサポートします。
スクリーンショット
パラメータ:
- url: ウェブページのURL(必須)
- full_page: ページ全体をキャプチャするか、ビューポートのみをキャプチャするか(オプション、デフォルト: false)
- 手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
HTMLを取得
パラメータ:
- url: ウェブページのURL(必須)
- 手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
JavaScriptを実行する
パラメータ:
- url: ウェブページのURL(必須)
- スクリプト: 実行する JavaScript コード (必須)
- 手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
コンソールログを取得する
パラメータ:
- url: ウェブページのURL(必須)
- 手順: ページの読み込み後に実行する手順をカンマで区切って記述するアクションまたは文章(オプション)
クラインの使用例
Cline でブラウザ用サーバーを使用して実行できるタスクの例を次に示します。
開発中のWebページ要素の変更
認証が必要なページの見出しの色を変更するには:
このタスクでは次のことを示します。
- カンマ区切りのステップを使用した複数ステップのブラウザ自動化
- 認証処理
- クッキーの承認
- DOM操作
- CSSスタイルの変更
サーバーはこれらのステップを順番に実行し、その途中で必要なやり取りを処理します。
構成
LLM 構成
サーバーは、デフォルト構成で複数の LLM プロバイダーをサポートします。
- GLHF: deepseek-ai/DeepSeek-V3 モデルを使用
- Ollama: 32k コンテキスト ウィンドウの qwen2.5:32b-instruct-q4_K_M モデルを使用します
- Groq: deepseek-r1-distill-llama-70b モデルを使用
- OpenAI: gpt-4o-mini モデルを使用
- Openrouter: deepseek/deepseek-chat モデルを使用
- Github: gpt-4o-mini モデルを使用
- DeepSeek: deepseek-chat モデルを使用
- Gemini: gemini-2.0-flash-exp モデルを使用
環境変数を使用してこれらのデフォルトを上書きできます。
MODEL
: 任意のプロバイダーのカスタムモデル名を設定しますBASE_URL
: カスタム API エンドポイント URL を設定します (プロバイダーがサポートしている場合)
視力サポート
サーバーは、USE_VISION 環境変数を通じてビジョン機能をサポートします。
- ブラウザ操作のビジョン機能を有効にするには、USE_VISION=true を設定します。
- ビジョンが必要ない場合にパフォーマンスを最適化するために、デフォルトは false です。
- ウェブページのコンテンツを視覚的に理解する必要があるタスクに役立ちます
Xvfb サポート
サーバーは、Xvfb がインストールされているかどうかを自動的に検出し、次の操作を実行します。
- 利用可能な場合は xvfb-run を使用し、ボット検出なしでブラウザの自動化を改善します。
- Xvfbがインストールされていない場合は直接実行にフォールバックします
- RUNNING_UNDER_XVFB環境変数を適宜設定します
タイムアウト
デフォルトのタイムアウトは5分(300000ミリ秒)です。これを変更するには、 build/index.js
のTIMEOUT定数を変更してください。
エラー処理
サーバーは、次の詳細なエラー メッセージを提供します。
- Pythonスクリプトの実行失敗
- ブラウザ操作のタイムアウト
- 無効なパラメータ
デバッグ
デバッグには MCP インスペクタを使用します。
用途
ライセンス
マサチューセッツ工科大学
Related MCP Servers
- AsecurityAlicenseAqualityFacilitates browser automation with custom capabilities and agent-based interactions, integrated through the browser-use library.Last updated -1646PythonMIT License
- AsecurityAlicenseAqualityEnables browser automation with Puppeteer, supporting navigation, form interactions, and connection to active Chrome instances for comprehensive web page interaction.Last updated -84708TypeScriptMIT License
- -securityAlicense-qualityEnables browser automation using the Selenium WebDriver through MCP, supporting browser management, element location, and both basic and advanced user interactions.Last updated -17521JavaScriptMIT License
- -securityAlicense-qualityA browser automation agent that enables Claude to interact with web browsers through the Model Context Protocol, allowing for actions like navigating websites, manipulating elements, and managing browser state.Last updated -2PythonMIT License