🤖 Агент автоматизации браузера
Мощный инструмент автоматизации браузера, созданный с помощью MCP (Model Controlled Program), который сочетает возможности веб-скрейпинга с интеллектом на основе LLM. Этот агент может выполнять поиск в Google, переходить на веб-страницы и интеллектуально скрейпинговать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.
🚀 Особенности
🔍 Интеграция с поиском Google : находит и извлекает лучшие результаты поиска по любому запросу
🕸️ Интеллектуальный веб-скрапинг : индивидуальные стратегии скрапинга для разных типов веб-сайтов:
📂 Репозитории GitHub
💬 Вопросы и ответы Stack Overflow
📚 Страницы документации
🌐 Общие веб-сайты
🧠 Обработка на базе искусственного интеллекта : использует искусственный интеллект Mistral для понимания и обработки собранного контента.
🥷 Скрытый режим : реализует защиту отпечатков пальцев браузера, чтобы избежать обнаружения
💾 Сохранение контента : автоматически сохраняет как скриншоты, так и текстовое содержимое с извлеченных страниц.
🏗️ Архитектура
В этом проекте используется клиент-серверная архитектура на базе MCP:
🖥️ Сервер : выполняет задачи автоматизации браузера и веб-скрапинга.
👤 Клиент : предоставляет интерфейс ИИ с использованием Mistral AI и LangGraph
📡 Связь : использует stdio для клиент-серверной связи.
⚙️ Требования
🐍 Питон 3.8+
🎭 Драматург
🧩 MCP (Программа с модельным управлением)
🔑 API-ключ Mistral AI
📥 Установка
Клонируйте репозиторий:
Установить зависимости:
Установить браузеры Playwright:
Создайте файл
.env
в корне проекта и добавьте свой ключ API Mistral AI:
📋 Использование
Запуск сервера
Запуск клиента
Образец взаимодействия
После запуска сервера и клиента:
Введите ваш запрос при появлении соответствующего запроса
Агент будет:
🔍 Найдите в Google соответствующие результаты
🧭 Перейти к верхнему результату
📊 Сбор контента на основе типа веб-сайта
📸 Сохраняйте скриншоты и контент в файлы
📤 Возврат обработанной информации
🛠️ Функции инструмента
get_top_google_url
🔍 Выполняет поиск в Google и возвращает URL-адрес лучшего результата по заданному запросу.
browse_and_scrape
🌐 Переходит по URL-адресу и извлекает контент на основе типа веб-сайта.
scrape_github
📂 Специализируется на извлечении содержимого README и блоков кода из репозиториев GitHub.
scrape_stackoverflow
💬 Извлекает вопросы, ответы, комментарии и блоки кода со страниц Stack Overflow.
scrape_documentation
📚 Оптимизирован для извлечения содержимого документации и примеров кода.
scrape_generic
🌐 Извлекает текст абзацев и блоки кода из общих веб-сайтов.
📁 Структура файла
📤 Выходные файлы
Агент генерирует два типа выходных файлов с временными метками:
📸
final_page_YYYYMMDD_HHMMSS.png
: Скриншот конечного состояния страницы📄
scraped_content_YYYYMMDD_HHMMSS.txt
: Извлеченный текстовый контент со страницы
⚙️ Настройка
Вы можете изменить следующие параметры в коде:
🖥️ Размер окна браузера: отрегулируйте
width
иheight
вbrowse_and_scrape
👻 Режим Headless: установите
headless=True
для невидимой работы браузера.🔢 Количество результатов Google: Измените
num_results
вget_top_google_url
❓ Устранение неполадок
🔌 Проблемы с подключением : убедитесь, что сервер и клиент работают на разных терминалах.
🎭 Ошибки Playwright : убедитесь, что браузеры установлены с
playwright install
🔑 Ошибки API-ключа : проверьте, правильно ли установлен ваш API-ключ Mistral в файле
.env
🛣️ Ошибки пути : при необходимости обновите путь к
main.py
вclient.py
📜 Лицензия
Лицензия Массачусетского технологического института
🤝 Вклад
Вклады приветствуются! Пожалуйста, не стесняйтесь отправлять запрос на включение.
Создано с помощью 🧩 MCP, 🎭 Playwright и 🧠 Mistral AI
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Обеспечивает интеллектуальный веб-скрапинг с помощью инструмента автоматизации браузера, который может выполнять поиск в Google, переходить на веб-страницы и извлекать контент с различных веб-сайтов, включая GitHub, Stack Overflow и сайты документации.
Related MCP Servers
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -419
- -securityFlicense-qualityProvides AI agents and coding assistants with web crawling and RAG capabilities, allowing them to scrape websites and perform semantic searches on the crawled content.Last updated -2
- AsecurityAlicenseAqualityEnables AI models to fetch text content from URLs, extract links from web pages, and search the web using Brave Search with automatic content retrieval from top results. Provides comprehensive web scraping and search capabilities with robust error handling.Last updated -5MIT License
- -securityAlicense-qualityEnables AI agents to perform undetectable browser automation that bypasses Cloudflare, antibots, and social media blocks. Provides 105 tools for element extraction, network debugging, and real-world web scraping with a 98.7% success rate on protected sites.Last updated -72MIT License
Appeared in Searches
- Information about scraping tools and techniques
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com
- Automating a QA End-to-End Workflow
- Resources and Tools for Frontend Development (e.g., Jira, Figma, GitHub)
- A method for finding LinkedIn posts that mention a key phrase