Загрузчик веб-сайта MCP
Простой MCP-сервер для загрузки веб-сайтов с документацией и подготовки их к индексации RAG.
Функции
- Загружает полные сайты документации, во всяком случае большие куски.
- Сохраняет структуру ссылок и навигацию, не совсем. lol
- Загружает и организует ресурсы (CSS, JS, изображения), но не очень дружелюбен к ИИ и, вероятно, все это требует некоторого анализа или векторизации в базу данных или чего-то в этом роде.
- Создает чистый индекс для систем RAG, в настоящее время, похоже, создает индекс в каждой папке, даже не смотрел на это.
- Простой специализированный интерфейс MCP, да.
Установка
Сделайте форк и загрузите, перейдите в репозиторий.
Добавьте это в ваш claude_desktop_config.json с вашими собственными путями:
Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
- Запустите сервер:
- Использование через Claude Desktop или другие клиенты MCP:
Структура вывода
Разработка
Сервер соответствует стандартной архитектуре MCP:
Компоненты
server.py
: Основная реализация сервера MCP, которая обрабатывает регистрацию инструментов и запросыcore.py
: основная функциональность загрузки веб-сайта с правильной обработкой ресурсовutils.py
: Вспомогательные утилиты для обработки файлов и URL-адресов
Принципы проектирования
- Единая ответственность
- Каждый модуль имеет одну ясную цель
- Сервер обрабатывает интерфейс MCP
- Ядро обрабатывает загрузку
- Utils выполняет общие операции
- Чистая структура
- Сохраняет исходную структуру сайта
- Организует активы по типу
- Создает понятный индекс для систем RAG
- Надежная работа
- Правильная обработка ошибок
- Разумные пределы глубины
- Проверка загрузки активов
- Чистая обработка URL/путей
Индекс РАГ
Файл rag_index.json
содержит:
Внося вклад
- Форк репозитория
- Создать ветку функций
- Внесите изменения
- Отправить запрос на извлечение
Лицензия
Лицензия MIT — см. файл LICENSE
Обработка ошибок
Сервер обрабатывает распространенные проблемы:
- Недействительные URL-адреса
- Ошибки сети
- Сбои при загрузке активов
- Неправильный HTML
- Глубокая рекурсия
- Ошибки файловой системы
Ответы об ошибках имеют следующий формат:
Успешные ответы:
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
Этот сервер позволяет пользователям загружать целые веб-сайты и их ресурсы для автономного доступа, поддерживая настраиваемые параметры глубины и параллелизма.
- Функции
- Установка
- Другое использование, о котором вам не нужно беспокоиться и которое может быть галлюцинаторным, лол:
- Структура вывода
- Разработка
- Внося вклад
- Лицензия
- Обработка ошибок
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityThis server enables LLMs to retrieve and process content from web pages, converting HTML to markdown for easier consumption.Last updated -162,980TypeScriptMIT License
- AsecurityFlicenseAqualityProvides a tool to download entire websites using wget. It preserves the website structure and converts links to work locally.Last updated -1123JavaScript
- AsecurityAlicenseAqualityAn advanced web browsing server enabling headless browser interactions via a secure API, providing features like navigation, content extraction, element interaction, and screenshot capture.Last updated -620PythonMIT License
- -securityFlicense-qualityThis server provides an interface for performing basic file system operations such as navigation, reading, writing, and file analysis, allowing users to manage directories and files efficiently.Last updated -4Python