Servidor PDF MCP

Un servidor de lectura de archivos PDF basado en FastMCP .

Admite extracción de texto PDF, reconocimiento OCR y extracción de imágenes a través del protocolo MCP, con un depurador web integrado para realizar pruebas fácilmente.

🚀 Características

leer_texto_pdf
Extrae texto normal de un PDF (página por página).
leído por ocr
Utiliza OCR para reconocer texto de archivos PDF escaneados o basados en imágenes.
leer imágenes en pdf
Extrae todas las imágenes de una página PDF específica (salida codificada en Base64).

📂 Estructura del proyecto

mcp-pdf-server/
├── pdf_resources/        # Directory for uploaded and processed PDF files
├── txt_server.py         # Main server entry point
└── README.md             # Project documentation

⚙️ Instalación

Versión de Python recomendada: 3.9+

pip install pymupdf mcp

Nota: Para utilizar las funciones de OCR, es posible que necesite una compilación de MuPDF con soporte de OCR o bibliotecas de OCR externas.

🔦 Iniciar el servidor

Ejecute el siguiente comando:

python txt_server.py

Deberías ver registros como:

Serving on http://127.0.0.1:6231

Interfaz de depuración web

Abra su navegador y visite:

http://127.0.0.1:6231

Seleccione una herramienta del panel izquierdo
Complete los parámetros en el panel derecho
Haga clic en "Ejecutar" para probar la herramienta

No requiere codificación: depure y pruebe fácilmente a través de la interfaz de usuario web.

🛠️ Lista de herramientas API

Herramienta	Descripción	Parámetros de entrada	Devoluciones
`read_pdf_text`	Extrae texto normal de páginas PDF	`file_path` , `start_page` , `end_page`	Lista de textos de páginas
`read_by_ocr`	Reconoce texto mediante OCR	`file_path` , `start_page` , `end_page` , `language` , `dpi`	Texto extraído mediante OCR
`read_pdf_images`	Extrae imágenes de una página PDF	`file_path` , `page_number`	Lista de imágenes (codificadas en Base64)

📝 Ejemplo de uso

Extraer texto de las páginas 1 a 5:

mcp run read_pdf_text --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 5}'

Realizar reconocimiento OCR en la página 1:

mcp run read_by_ocr --args '{"file_path": "pdf_resources/example.pdf", "start_page": 1, "end_page": 1, "language": "eng"}'

Extraer todas las imágenes de la página 3:

mcp run read_pdf_images --args '{"file_path": "pdf_resources/example.pdf", "page_number": 3}'

📢 Notas

Los archivos deben colocarse dentro del directorio pdf_resources/ o se debe proporcionar una ruta absoluta.
La funcionalidad de OCR requiere soporte de OCR adecuado en el entorno.
Al procesar archivos grandes, ajuste la configuración de memoria y tiempo de espera según sea necesario.

📜 Licencia

Este proyecto está licenciado bajo la licencia MIT.
Para uso comercial, por favor dé crédito a la fuente original.

This server cannot be installed

security - not tested

license - not found

quality - not tested

How are these scores calculated?

local-only server

The server can only run on the client's local machine because it depends on local resources.

Un servidor de procesamiento de PDF que extrae texto mediante análisis normal u OCR y recupera imágenes de archivos PDF a través del protocolo MCP con un depurador web integrado.

Related MCP Servers

PDF Extraction MCP Server
xraywu
A
security
F
license
A
quality
An MCP server that provides a tool to extract text content from local PDF files, supporting both standard PDF reading and OCR capabilities with optional page selection.
Last updated -
1
18
Textin MCP Serverofficial
intsig-textin
A
security
A
license
A
quality
A server that enables OCR capabilities to recognize text from images, PDFs, and Word documents, convert them to Markdown, and extract key information.
Last updated -
3
55
23
MIT License
MCP PDF Server
Dev-91
-
security
A
license
-
quality
A Model Context Protocol (MCP) based server that efficiently manages PDF files, allowing AI coding tools like Cursor to read, summarize, and extract information from PDF datasheets to assist embedded development work.
Last updated -
7
Apache 2.0
PDF Reader MCP Server
averagejoeslab
-
security
F
license
-
quality
An MCP server that provides comprehensive PDF processing capabilities including text extraction, image extraction, table detection, annotation extraction, metadata retrieval, page rendering, and document structure analysis.
Last updated -

View all related MCP servers

Appeared in Searches

How to extract text from images

MCP PDF Server