🤖 Агент автоматизации браузера

Мощный инструмент автоматизации браузера, созданный с помощью MCP (Model Controlled Program), который сочетает возможности веб-скрейпинга с интеллектом на основе LLM. Этот агент может выполнять поиск в Google, переходить на веб-страницы и интеллектуально скрейпинговать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.

🚀 Особенности

🔍 Интеграция с поиском Google : находит и извлекает лучшие результаты поиска по любому запросу
🕸️ Интеллектуальный веб-скрапинг : индивидуальные стратегии скрапинга для разных типов веб-сайтов:
- 📂 Репозитории GitHub
- 💬 Вопросы и ответы Stack Overflow
- 📚 Страницы документации
- 🌐 Общие веб-сайты
🧠 Обработка на базе искусственного интеллекта : использует искусственный интеллект Mistral для понимания и обработки собранного контента.
🥷 Скрытый режим : реализует защиту отпечатков пальцев браузера, чтобы избежать обнаружения
💾 Сохранение контента : автоматически сохраняет как скриншоты, так и текстовое содержимое с извлеченных страниц.

🏗️ Архитектура

В этом проекте используется клиент-серверная архитектура на базе MCP:

🖥️ Сервер : выполняет задачи автоматизации браузера и веб-скрапинга.
👤 Клиент : предоставляет интерфейс ИИ с использованием Mistral AI и LangGraph
📡 Связь : использует stdio для клиент-серверной связи.

⚙️ Требования

🐍 Питон 3.8+
🎭 Драматург
🧩 MCP (Программа с модельным управлением)
🔑 API-ключ Mistral AI

📥 Установка

Клонируйте репозиторий:

git clone https://github.com/yourusername/browser-automation-agent.git cd browser-automation-agent

Установить зависимости:

pip install -r requirements.txt

Установить браузеры Playwright:

playwright install

Создайте файл .env в корне проекта и добавьте свой ключ API Mistral AI:

MISTRAL_API_KEY=your_api_key_here

📋 Использование

Запуск сервера

python main.py

Запуск клиента

python client.py

Образец взаимодействия

После запуска сервера и клиента:

Введите ваш запрос при появлении соответствующего запроса
Агент будет:
- 🔍 Найдите в Google соответствующие результаты
- 🧭 Перейти к верхнему результату
- 📊 Сбор контента на основе типа веб-сайта
- 📸 Сохраняйте скриншоты и контент в файлы
- 📤 Возврат обработанной информации

🛠️ Функции инструмента

`get_top_google_url`

🔍 Выполняет поиск в Google и возвращает URL-адрес лучшего результата по заданному запросу.

`browse_and_scrape`

🌐 Переходит по URL-адресу и извлекает контент на основе типа веб-сайта.

`scrape_github`

📂 Специализируется на извлечении содержимого README и блоков кода из репозиториев GitHub.

`scrape_stackoverflow`

💬 Извлекает вопросы, ответы, комментарии и блоки кода со страниц Stack Overflow.

`scrape_documentation`

📚 Оптимизирован для извлечения содержимого документации и примеров кода.

`scrape_generic`

🌐 Извлекает текст абзацев и блоки кода из общих веб-сайтов.

📁 Структура файла

browser-automation-agent/ ├── main.py # MCP server implementation ├── client.py # Mistral AI client implementation ├── requirements.txt # Project dependencies ├── .env # Environment variables (API keys) └── README.md # Project documentation

📤 Выходные файлы

Агент генерирует два типа выходных файлов с временными метками:

📸 final_page_YYYYMMDD_HHMMSS.png : Скриншот конечного состояния страницы
📄 scraped_content_YYYYMMDD_HHMMSS.txt : Извлеченный текстовый контент со страницы

⚙️ Настройка

Вы можете изменить следующие параметры в коде:

🖥️ Размер окна браузера: отрегулируйте width и height в browse_and_scrape
👻 Режим Headless: установите headless=True для невидимой работы браузера.
🔢 Количество результатов Google: Измените num_results в get_top_google_url

❓ Устранение неполадок

🔌 Проблемы с подключением : убедитесь, что сервер и клиент работают на разных терминалах.
🎭 Ошибки Playwright : убедитесь, что браузеры установлены с playwright install
🔑 Ошибки API-ключа : проверьте, правильно ли установлен ваш API-ключ Mistral в файле .env
🛣️ Ошибки пути : при необходимости обновите путь к main.py в client.py

📜 Лицензия

Лицензия Массачусетского технологического института

🤝 Вклад

Вклады приветствуются! Пожалуйста, не стесняйтесь отправлять запрос на включение.

Создано с помощью 🧩 MCP, 🎭 Playwright и 🧠 Mistral AI

This server cannot be installed

-

security - not tested

F

license - not found

-

quality - not tested

How are these scores calculated?

local-only server

The server can only run on the client's local machine because it depends on local resources.

Обеспечивает интеллектуальный веб-скрапинг с помощью инструмента автоматизации браузера, который может выполнять поиск в Google, переходить на веб-страницы и извлекать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.

Related MCP Servers

Browser Use Server
ztobs
A
security
F
license
A
quality
Enables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.
Last updated -
4
19
Crawl4AI RAG MCP Server
vedantparmar12
-
security
F
license
-
quality
Provides AI agents and coding assistants with web crawling and RAG capabilities, allowing them to scrape websites and perform semantic searches on the crawled content.
Last updated -
2
URL Text Fetcher MCP Server
billallison
A
security
A
license
A
quality
Enables AI models to fetch text content from URLs, extract links from web pages, and search the web using Brave Search with automatic content retrieval from top results. Provides comprehensive web scraping and search capabilities with robust error handling.
Last updated -
5
MIT License
Stealth Browser MCP
vibheksoni
-
security
A
license
-
quality
Enables AI agents to perform undetectable browser automation that bypasses Cloudflare, antibots, and social media blocks. Provides 105 tools for element extraction, network debugging, and real-world web scraping with a 98.7% success rate on protected sites.
Last updated -
72
MIT License

View all related MCP servers

Browser Automation MCP Server