⚠️ УВЕДОМЛЕНИЕ
СЕРВЕР MCP В НАСТОЯЩЕЕ ВРЕМЯ НАХОДИТСЯ В РАЗРАБОТКЕ
НЕ ГОТОВО К ПРОИЗВОДСТВЕННОМУ ИСПОЛЬЗОВАНИЮ
ОБНОВЛЕНИЕ БУДЕТ ПОСЛЕ ЗАВЕРШЕНИЯ РАБОТЫ
MCP-сервер Crawl4AI
🚀 Высокопроизводительный сервер MCP для Crawl4AI — позволяет помощникам ИИ получать доступ к веб-скрапингу, сканированию и глубокому исследованию через протокол Model Context. Быстрее и эффективнее, чем FireCrawl!
Обзор
Этот проект реализует пользовательский сервер Model Context Protocol (MCP), который интегрируется с Crawl4AI, библиотекой веб-скрейпинга и сканирования с открытым исходным кодом. Сервер развернут как удаленный сервер MCP на CloudFlare Workers, что позволяет помощникам ИИ, таким как Клод, получать доступ к мощным возможностям веб-скрейпинга Crawl4AI.
Документация
Подробную информацию об этом проекте можно найти в следующей документации:
План миграции — Подробный план миграции с Firecrawl на Crawl4AI
Улучшенная архитектура — многопользовательская архитектура с гибкостью облачного провайдера
Руководство по внедрению — Технические подробности внедрения и примеры кода
Упрощение кодовой базы — подробности об упрощении кода и внедренных передовых методах
Функции
Сбор веб-данных
🌐 Извлечение данных с отдельных веб-страниц : извлечение контента с отдельных веб-страниц
🕸️ Веб-сканирование : сканирование веб-сайтов с настраиваемой глубиной и ограничениями по количеству страниц
🗺️ Обнаружение URL : сопоставление и обнаружение URL-адресов с начальной точки
🕸️ Асинхронное сканирование : эффективное сканирование целых веб-сайтов
Обработка контента
🔍 Глубокое исследование : проведите комплексное исследование на нескольких страницах.
📊 Извлечение структурированных данных : извлечение определенных данных с использованием селекторов CSS или извлечение на основе LLM.
🔎 Поиск контента : поиск по ранее просканированному контенту
Интеграция и безопасность
🔄 Интеграция с MCP : бесшовная интеграция с клиентами MCP (Claude Desktop и т. д.)
🔒 Аутентификация OAuth : безопасный доступ с соответствующей авторизацией
🔒 Варианты аутентификации : безопасный доступ через OAuth или API-ключ (токен на предъявителя)
⚡ Высокая производительность : оптимизирована для скорости и эффективности
Структура проекта
Начиная
Предпосылки
Установка
Клонируйте репозиторий:
git clone https://github.com/BjornMelin/crawl4ai-mcp-server.git cd crawl4ai-mcp-serverУстановить зависимости:
npm installНастройте пространство имен CloudFlare KV:
wrangler kv:namespace create CRAWL_DATAОбновите
wrangler.toml
, указав идентификатор пространства имен KV:kv_namespaces = [ { binding = "CRAWL_DATA", id = "your-namespace-id" } ]
Разработка
Местное развитие
Запустите сервер разработки:
npm run devСервер будет доступен по адресу http://localhost:8787
Развертывание
Развертывание в CloudFlare Workers:
npm run deployВаш сервер будет доступен по URL-адресу CloudFlare Workers, назначенному вашему развернутому Worker.
Использование с клиентами MCP
Этот сервер реализует протокол контекста модели, позволяя помощникам ИИ получать доступ к его инструментам.
Аутентификация
Реализуйте аутентификацию OAuth с помощью workers-oauth-provider
Добавить аутентификацию ключа API с использованием токенов Bearer
Создать страницу входа и управление токенами
Подключение к MCP-клиенту
Используйте URL-адрес CloudFlare Workers, назначенный вашему развернутому Worker-у
В Claude Desktop или других клиентах MCP добавьте этот сервер в качестве источника инструментов
Доступные инструменты
crawl
: сканирование веб-страниц с начального URL-адреса.getCrawl
: Извлечение данных сканирования по идентификаторуlistCrawls
: список всех обходов или фильтр по доменуsearch
: Поиск индексированных документов по запросуextract
: извлечение структурированного контента из URL-адреса
Конфигурация
Сервер можно настроить, изменив переменные среды в wrangler.toml
:
MAX_CRAWL_DEPTH
: Максимальная глубина сканирования веб-страниц (по умолчанию: 3)MAX_CRAWL_PAGES
: Максимальное количество страниц для сканирования (по умолчанию: 100)API_VERSION
: строка версии API (по умолчанию: «v1»)OAUTH_CLIENT_ID
: идентификатор клиента OAuth для аутентификацииOAUTH_CLIENT_SECRET
: секрет клиента OAuth для аутентификации
Дорожная карта
Проект разрабатывается с учетом следующих компонентов:
Настройка и конфигурация проекта : настройка CloudFlare Worker, конфигурация TypeScript
Схемы сервера и инструментов MCP : реализация сервера MCP с определениями инструментов
Адаптер Crawl4AI : интеграция с функционалом Crawl4AI
Аутентификация OAuth : реализация безопасной аутентификации
Оптимизация производительности : повышение скорости и надежности
Расширенные функции извлечения : улучшение возможностей извлечения структурированных данных.
Внося вклад
Вклады приветствуются! Пожалуйста, проверьте открытые проблемы или создайте новую, прежде чем начать работу над функцией или исправлением ошибки. Подробные инструкции см. в Руководстве по вкладу .
Поддерживать
Если у вас возникли проблемы или есть вопросы:
Открыть вопрос в репозитории GitHub
Проверьте документацию Crawl4AI.
Как цитировать
Ес��и вы используете Crawl4AI MCP Server в своих исследованиях или проектах, пожалуйста, укажите ссылку на него, используя следующую запись BibTeX:
Лицензия
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Высокопроизводительный сервер, позволяющий помощникам на базе искусственного интеллекта получать доступ к возможностям веб-скрапинга, сканирования и глубокого исследования с помощью протокола Model Context Protocol.
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -538MIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -72,328MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -128517
- AsecurityAlicenseAqualityA Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.Last updated -4262MIT License
Appeared in Searches
- Web search and data extraction capabilities for AI assistants
- A guide to conducting thorough web-based research
- A service for downloading files from MEGA cloud storage
- Enabling deep research modes in AI tools like Kimi and ChatGPT
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com