MCP 服务器可读性解析器 (Python / FastMCP)
致谢/参考
该项目基于emzimmer的原始server-moz-readability实现。(原始 README 文档请参考原始 README.md 。)
此 Python 实现采用原始概念,使用FastMCP作为基于 Python 的 MCP 运行
Mozilla Readability 解析器 MCP 服务器
模型上下文协议 (MCP)服务器的 Python 实现,可提取网页内容并将其转换为干净的、LLM 优化的 Markdown。
Related MCP server: MD Webcrawl MCP
目录
特征
删除广告、导航、页脚和其他非必要内容
将干净的 HTML 转换为格式良好的 Markdown
优雅地处理错误
针对 LLM 处理进行了优化
轻量且快速
为什么不直接获取?
与简单的获取请求不同,此服务器:
使用可读性算法仅提取相关内容
消除广告、弹出窗口和导航菜单等噪音
通过删除不必要的 HTML/CSS 来减少令牌的使用
提供一致的 Markdown 格式,以便更好地处理 LLM
处理具有动态内容的复杂网页
安装
克隆存储库:
创建并激活虚拟环境:
安装依赖项:
快速入门
启动服务器:
示例请求:
工具参考
extract_content
获取网页内容并将其转换为干净的 Markdown。
参数:
返回:
MCP 服务器配置
要配置 MCP 服务器,请将以下内容添加到您的 MCP 设置文件中:
然后可以使用 MCP 协议启动服务器并通过parse工具访问。
依赖项
readability-lxml - 内容提取
html2text ——HTML 到 Markdown 的转换
beautifulsoup4 ——DOM解析
请求- HTTP 请求
执照
MIT 许可证 - 详情请参阅许可证。