스크래플링 페치 MCP
봇 감지 기능을 구현한 웹사이트의 텍스트 콘텐츠에 AI 어시스턴트가 액세스할 수 있도록 돕는 MCP 서버로, 브라우저에서 볼 수 있는 내용과 AI가 액세스할 수 있는 내용 간의 차이를 메웁니다.
의도된 사용
이 도구는 봇 탐지 기능을 구현한 웹사이트에서 소량의 문서 및 참고 자료(텍스트/HTML 형식만 해당)를 검색하는 데 최적화되어 있습니다. 일반적인 사이트 스크래핑이나 데이터 수집용으로 설계되거나 테스트되지 않았습니다.
참고 : 이 프로젝트는 LLM Context를 사용하여 Claude Sonnet 3.7과 협업하여 개발되었습니다.
설치
- 요구 사항:
- 파이썬 3.10+
- uv 패키지 관리자
- 종속성과 도구를 설치합니다.
지엑스피1
Claude와 함께 설정
Claude 클라이언트의 MCP 서버 구성에 다음 구성을 추가합니다.
사용 가능한 도구
이 패키지는 두 가지의 고유한 도구를 제공합니다.
- s-fetch-page : 페이지네이션 지원으로 전체 웹 페이지를 검색합니다.
- s-fetch-pattern : 주변 컨텍스트와 일치하는 정규식 패턴을 추출합니다.
사용 예
전체 페이지 가져오기
패턴 매칭을 통한 특정 콘텐츠 추출
기능 옵션
- 보호 수준 :
basic
: 빠른 검색(1~2초)이 가능하지만, 보호가 철저한 사이트에서는 성공률이 낮음stealth
: 대부분의 사이트에서 작동하는 균형 잡힌 보호(3~8초)max-stealth
: 엄격하게 보호되는 사이트에 대한 최대 보호(10초 이상)
- 콘텐츠 타겟팅 옵션 :
- s-fetch-page : 페이지 매김 지원(
start_index
및max_length
사용)을 통해 전체 페이지를 검색합니다. - s-fetch-pattern : 정규 표현식(
search_pattern
및context_chars
포함)을 사용하여 특정 콘텐츠 추출- 결과에는
s-fetch-page
사용한 후속 쿼리에 대한 위치 정보가 포함됩니다.
- 결과에는
- s-fetch-page : 페이지 매김 지원(
최상의 결과를 위한 팁
basic
모드로 시작하고 필요한 경우에만 더 높은 보호 수준으로 확대하십시오.- 대용량 문서의 경우
s-fetch-page
와 함께 페이지 매김 매개변수를 사용하세요. - 큰 페이지에서 특정 정보를 찾을 때
s-fetch-pattern
사용하세요. - AI는 사이트의 보호 수준에 따라 접근 방식을 자동으로 조정합니다.
제한 사항
- 텍스트 콘텐츠 전용으로 설계됨 : 특히 문서, 기사 및 참고 자료용
- 대량 스크래핑이나 데이터 수집용으로 설계되지 않았습니다.
- 인증이 필요한 사이트에서는 작동하지 않을 수 있습니다.
- 성능은 사이트 복잡성에 따라 다릅니다.
특허
아파치 2
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
봇 감지 기능을 구현한 웹사이트의 텍스트 콘텐츠에 AI 어시스턴트가 액세스할 수 있도록 돕는 MCP 서버로, 브라우저에서 볼 수 있는 내용과 AI가 액세스할 수 있는 내용 간의 차이를 메웁니다.
Related MCP Servers
- -securityFlicense-qualityMCP server that enables AI assistants to perform SEO automation tasks including keyword research, SERP analysis, and competitor analysis through Google Ads API integration.Last updated -
- -securityAlicense-qualityAn MCP server that enables AI assistants to control a web browser through natural language commands, allowing them to navigate websites and extract information via SSE transport.Last updated -663PythonMIT License
- -securityFlicense-qualityA MCP server that allows AI assistants to interact with the browser, including getting page content as markdown, modifying page styles, and searching browser history.Last updated -79TypeScript
- AsecurityFlicenseAqualityAn MCP server that provides AI assistants with powerful tools to interact with YouTube, including video searching, transcript extraction, comment retrieval, and more.Last updated -815Python