페처 MCP
Playwright 헤드리스 브라우저를 사용하여 웹 페이지 콘텐츠를 가져오기 위한 MCP 서버입니다.
장점
- JavaScript 지원 : 기존 웹 스크래퍼와 달리 Fetcher MCP는 Playwright를 사용하여 JavaScript를 실행하므로 동적 웹 콘텐츠와 최신 웹 애플리케이션을 처리할 수 있습니다.
- 지능형 콘텐츠 추출 : 내장된 가독성 알고리즘이 웹 페이지에서 주요 콘텐츠를 자동으로 추출하여 광고, 탐색 기능 및 기타 필수적이지 않은 요소를 제거합니다.
- 유연한 출력 형식 : HTML과 마크다운 출력 형식을 모두 지원하므로 다양한 다운스트림 애플리케이션과 쉽게 통합할 수 있습니다.
- 병렬 처리 :
fetch_urls
도구를 사용하면 여러 URL을 동시에 가져올 수 있어 일괄 작업의 효율성이 크게 향상됩니다. - 리소스 최적화 : 불필요한 리소스(이미지, 스타일시트, 글꼴, 미디어)를 자동으로 차단하여 대역폭 사용량을 줄이고 성능을 향상시킵니다.
- 강력한 오류 처리 : 포괄적인 오류 처리 및 로깅을 통해 문제가 있는 웹 페이지를 처리할 때에도 안정적인 운영을 보장합니다.
- 구성 가능한 매개변수 : 다양한 사용 사례에 맞게 시간 초과, 콘텐츠 추출 및 출력 형식에 대한 세부적인 제어가 가능합니다.
빠른 시작
npx로 직접 실행:
지엑스피1
최초 설정 - 터미널에서 다음 명령을 실행하여 필요한 브라우저를 설치하세요.
디버그 모드
디버깅을 위해 브라우저 창을 표시하려면 --debug
옵션과 함께 실행하세요.
구성 MCP
Claude Desktop에서 이 MCP 서버를 구성하세요.
MacOS의 경우: ~/Library/Application Support/Claude/claude_desktop_config.json
Windows의 경우: %APPDATA%/Claude/claude_desktop_config.json
특징
fetch_url
- 지정된 URL에서 웹 페이지 콘텐츠를 검색합니다.- Playwright 헤드리스 브라우저를 사용하여 JavaScript를 구문 분석합니다.
- 주요 콘텐츠의 지능적 추출 및 마크다운으로의 변환을 지원합니다.
- 다음 매개변수를 지원합니다.
url
: 가져올 웹 페이지의 URL(필수 매개변수)timeout
: 페이지 로딩 시간 초과(밀리초), 기본값은 30000(30초)입니다.waitUntil
: 탐색이 완료된 것으로 간주되는 시점을 지정합니다. 옵션: 'load', 'domcontentloaded', 'networkidle', 'commit', 기본값은 'load'입니다.extractContent
: 주요 콘텐츠를 지능적으로 추출할지 여부, 기본값은 true입니다.maxLength
: 반환되는 콘텐츠의 최대 길이(문자), 기본값은 제한 없음returnHtml
: Markdown 대신 HTML 콘텐츠를 반환할지 여부, 기본값은 false입니다.waitForNavigation
: 초기 페이지 로드 후 추가 탐색을 기다릴지 여부(봇 방지 검증이 있는 사이트에 유용함), 기본값은 false입니다.navigationTimeout
: 추가 탐색을 기다리는 최대 시간(밀리초), 기본값은 10000(10초)입니다.disableMedia
: 미디어 리소스(이미지, 스타일시트, 글꼴, 미디어)를 비활성화할지 여부, 기본값은 true입니다.debug
: 디버그 모드(브라우저 창 표시)를 활성화할지 여부, 지정된 경우 --debug 명령줄 플래그를 재정의합니다.
fetch_urls
- 여러 URL에서 웹 페이지 콘텐츠를 병렬로 일괄 검색합니다.- 향상된 성능을 위해 다중 탭 병렬 페칭을 사용합니다.
- 웹 페이지 간 명확한 분리를 통해 결합된 결과를 반환합니다.
- 다음 매개변수를 지원합니다.
urls
: 가져올 URL 배열(필수 매개변수)- 다른 매개변수는
fetch_url
과 동일합니다.
팁
특수 웹사이트 시나리오 처리
크롤러 방지 메커니즘 처리
- 로딩이 완료될 때까지 기다리세요 . CAPTCHA, 리디렉션 또는 기타 확인 메커니즘을 사용하는 웹사이트의 경우 프롬프트에 다음을 포함하세요.여기서는
waitForNavigation: true
매개변수를 사용합니다. - 시간 초과 기간 늘리기 : 로드 속도가 느린 웹사이트의 경우:이렇게 하면
timeout
과navigationTimeout
매개변수가 모두 그에 따라 조정됩니다.
콘텐츠 검색 조정
- 원래 HTML 구조 유지 : 콘텐츠 추출이 실패할 수 있는 경우:
extractContent: false
및returnHtml: true
설정합니다. - 전체 페이지 콘텐츠 가져오기 : 추출된 콘텐츠가 너무 제한적인 경우:
extractContent: false
설정합니다. - HTML로 콘텐츠 반환 : 기본 마크다운 대신 HTML 형식이 필요한 경우:
returnHtml: true
설정합니다.
디버깅 및 인증
디버그 모드 활성화
- 동적 디버그 활성화 : 특정 가져오기 작업 중에 브라우저 창을 표시하려면 다음을 수행합니다.
--debug
플래그 없이 서버를 시작한 경우에도debug: true
로 설정됩니다.
인증을 위한 사용자 지정 쿠키 사용
- 수동 로그인 : 본인의 자격 증명을 사용하여 로그인하려면:
debug: true
설정하거나--debug
플래그를 사용하여 수동 로그인을 위해 브라우저 창을 열어 둡니다. - 디버그 브라우저와 상호 작용 : 디버그 모드가 활성화된 경우:
- 브라우저 창은 계속 열려 있습니다
- 귀하의 자격 증명을 사용하여 수동으로 웹사이트에 로그인할 수 있습니다.
- 로그인이 완료되면 인증된 세션을 통해 콘텐츠가 가져옵니다.
- 특정 요청에 대한 디버그 활성화 : 서버가 이미 실행 중이더라도 특정 요청에 대해 디버그 모드를 활성화할 수 있습니다.이 특정 요청에 대해서만
debug: true
설정하고, 수동 로그인을 위해 브라우저 창을 엽니다.
개발
종속성 설치
Playwright Browser 설치
Playwright에 필요한 브라우저를 설치하세요:
서버 구축
디버깅
디버깅을 위해 MCP Inspector를 사용하세요.
디버깅을 위해 표시되는 브라우저 모드를 활성화할 수도 있습니다.
관련 프로젝트
- g-search-mcp : 여러 키워드를 동시에 사용하여 병렬 검색을 지원하는 강력한 Google 검색용 MCP 서버입니다. 일괄 검색 작업 및 데이터 수집에 적합합니다.
특허
MIT 라이선스 에 따라 라이센스됨
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
Playwright 헤드리스 브라우저를 사용하여 웹 페이지 콘텐츠를 검색하고, 주요 콘텐츠를 추출하여 Markdown 형식으로 변환할 수 있는 MCP 서버입니다.
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -41,89334TypeScriptMIT License
- AsecurityAlicenseAqualityAn MCP server for fetching and transforming web content into various formats.Last updated -46PythonMIT License
- AsecurityAlicenseAqualityA MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.Last updated -8PythonApache 2.0
- AsecurityFlicenseAqualityAn MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.Last updated -19,3766JavaScript