Skip to main content
Glama

Mozilla Readability Parser MCP Server

by jmh108

MCP 服务器可读性解析器 (Python / FastMCP)

致谢/参考

该项目基于emzimmer的原始server-moz-readability实现。(原始 README 文档请参考原始 README.md 。)

此 Python 实现采用原始概念,使用FastMCP作为基于 Python 的 MCP 运行

Mozilla Readability 解析器 MCP 服务器

模型上下文协议 (MCP)服务器的 Python 实现,可提取网页内容并将其转换为干净的、LLM 优化的 Markdown。

Related MCP server: MD Webcrawl MCP

目录

特征

  • 删除广告、导航、页脚和其他非必要内容

  • 将干净的 HTML 转换为格式良好的 Markdown

  • 优雅地处理错误

  • 针对 LLM 处理进行了优化

  • 轻量且快速

为什么不直接获取?

与简单的获取请求不同,此服务器:

  • 使用可读性算法仅提取相关内容

  • 消除广告、弹出窗口和导航菜单等噪音

  • 通过删除不必要的 HTML/CSS 来减少令牌的使用

  • 提供一致的 Markdown 格式,以便更好地处理 LLM

  • 处理具有动态内容的复杂网页

安装

  1. 克隆存储库:

git clone https://github.com/jmh108/MCP-server-readability-python.git cd MCP-server-readability-python
  1. 创建并激活虚拟环境:

python -m venv venv source venv/bin/activate # On Windows use: venv\Scripts\activate
  1. 安装依赖项:

pip install -r requirements.txt

快速入门

  1. 启动服务器:

fastmcp run server.py
  1. 示例请求:

curl -X POST http://localhost:8000/tools/extract_content \ -H "Content-Type: application/json" \ -d '{"url": "https://example.com/article"}'

工具参考

extract_content

获取网页内容并将其转换为干净的 Markdown。

参数:

{ "url": { "type": "string", "description": "The website URL to parse", "required": true } }

返回:

{ "content": "Markdown content..." }

MCP 服务器配置

要配置 MCP 服务器,请将以下内容添加到您的 MCP 设置文件中:

{ "mcpServers": { "readability": { "command": "fastmcp", "args": ["run", "server.py"], "env": {} } } }

然后可以使用 MCP 协议启动服务器并通过parse工具访问。

依赖项

执照

MIT 许可证 - 详情请参阅许可证

-
security - not tested
A
license - permissive license
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/jmh108/MCP-server-readability-python'

If you have feedback or need assistance with the MCP directory API, please join our Discord server