브라우저 사용이 가능한 MCP 서버
브라우저에서 사용할 수 있는 MCP 서버입니다.
개요
이 저장소에는 브라우저 기반 라이브러리 서버가 포함되어 있으며, 이 라이브러리는 AI 에이전트가 자연어를 통해 웹 브라우저와 상호 작용할 수 있도록 하는 강력한 브라우저 자동화 시스템을 제공합니다. 이 서버는 Anthropic의 모델 컨텍스트 프로토콜(MCP)을 기반으로 구축되었으며 브라우저 기반 라이브러리와 완벽하게 통합됩니다.
특징
브라우저 컨트롤
자연어를 통한 자동화된 브라우저 상호 작용
탐색, 양식 작성, 클릭 및 스크롤 기능
탭 관리 및 스크린샷 기능
쿠키 및 상태 관리
에이전트 시스템
custom_agent.py에서 사용자 정의 에이전트 구현
비전 기반 요소 감지
작업에 대한 구조화된 JSON 응답
메시지 기록 관리 및 요약
구성
API 키 및 설정에 대한 환경 기반 구성
Chrome 브라우저 설정(디버깅 포트, 지속성)
모델 제공자 선택 및 매개변수
종속성
이 프로젝트는 다음과 같은 Python 패키지를 사용합니다.
패키지 | 버전 | 설명 |
>=10.1.0 | Python 인터프리터에 이미지 처리 기능을 추가하는 Python 이미징 라이브러리(PIL) 포크입니다. | |
==0.1.19 | AI 에이전트가 자연어를 통해 웹 브라우저와 상호 작용할 수 있도록 지원하는 강력한 브라우저 자동화 시스템입니다. 이 프로젝트의 브라우저 자동화 기능을 구동하는 핵심 라이브러리입니다. | |
>=0.115.6 | Python 3.7 이상 버전으로 표준 Python 타입 힌트를 기반으로 API를 구축하기 위한 최신의 빠른(고성능) 웹 프레임워크입니다. 에이전트 기능을 제공하는 서버를 생성하는 데 사용됩니다. | |
>=0.4.1 | MCP(Model Context Protocol) 서버를 구축하기 위한 FastAPI를 래핑하는 프레임워크입니다. | |
>=1.7.2 | OpenAI 모델을 사용하여 구조화된 출력 프롬프트 및 검증을 위한 라이브러리입니다. 모델 응답에서 구조화된 데이터를 추출할 수 있습니다. | |
>=0.3.14 | 대규모 언어 모델(LLM)을 사용하는 애플리케이션을 개발하기 위한 프레임워크입니다. 서로 다른 언어 모델 구성 요소를 연결하고 다양한 API 및 데이터 소스와 상호 작용할 수 있는 도구를 제공합니다. | |
>=2.1.1 | Google GenAI 모델에 LangChain을 통합하여 LangChain 프레임워크 내에서 Google의 생성 AI 기능을 사용할 수 있습니다. | |
>=0.2.14 | LangChain과 OpenAI 모델이 통합되었습니다. LangChain 프레임워크 내에서 OpenAI 모델(예: GPT-4)을 사용할 수 있습니다. 이 프로젝트에서는 OpenAI의 언어 및 비전 모델과 상호 작용하는 데 사용됩니다. | |
>=0.2.2 | Ollama에 Langchain을 통합하여 LLM의 로컬 실행을 지원합니다. | |
>=1.59.5 | OpenAI API용 공식 Python 클라이언트 라이브러리입니다. OpenAI 모델과 직접 상호 작용하는 데 사용됩니다(필요한 경우 LangChain 외에도 사용 가능). | |
>=1.0.1 |
파일에서 키-값 쌍을 읽어 환경 변수로 설정합니다. 로컬 개발 및 구성 관리를 간소화합니다. | |
>=2.10.5 | Python 타입 어노테이션을 사용한 데이터 검증 및 설정 관리. 런타임 시 타입 적용 및 자동 모델 생성 기능을 제공합니다. 에이전트에서 구조화된 데이터 모델을 정의하는 데 필수적입니다. | |
>=1.9.0 | 클립보드 기능을 복사하고 붙여넣기 위한 크로스 플랫폼 Python 모듈입니다. | |
>=0.22.0 | Python용 ASGI 웹 서버 구현. FastAPI 애플리케이션 제공에 사용됩니다. |
구성 요소
자원
서버는 다음을 사용하여 브라우저 자동화 시스템을 구현합니다.
고급 브라우저 제어를 위한 브라우저 사용 라이브러리와의 통합
사용자 정의 브라우저 자동화 기능
비전 기능을 갖춘 에이전트 기반 상호작용 시스템
지속적인 상태 관리
사용자 정의 가능한 모델 설정
요구 사항
운영 체제(Linux, macOS, Windows; Docker 또는 Microsoft WSL은 테스트하지 않았습니다)
Python 3.11 이상
uv(빠른 Python 패키지 설치 프로그램)
크롬/크로미엄 브라우저
빠른 시작
클로드 데스크탑
MacOS의 경우: ~/Library/Application\ Support/Claude/claude_desktop_config.json
Windows의 경우: %APPDATA%/Claude/claude_desktop_config.json
Smithery를 통해 설치
Smithery를 통해 Claude Desktop용 Browser Use를 자동으로 설치하려면:
지엑스피1
환경 변수
주요 환경 변수:
개발
설정
저장소를 복제합니다.
가상 환경을 만들고 활성화하세요.
종속성 설치:
서버를 시작합니다
디버깅
디버깅을 위해 MCP Inspector를 사용하세요.
검사기는 디버깅 인터페이스의 URL을 표시합니다.
브라우저 동작
서버는 자연어를 통해 다양한 브라우저 동작을 지원합니다.
탐색: URL로 이동, 뒤로/앞으로, 새로 고침
상호작용: 클릭, 입력, 스크롤, 호버
양식: 양식 작성, 제출, 옵션 선택
상태: 페이지 콘텐츠 가져오기, 스크린샷 찍기
탭: 탭 생성, 닫기, 탭 간 전환
비전: 시각적 모양으로 요소 찾기
쿠키 및 저장소: 브라우저 상태 관리
보안
Chrome 설정 중 일부에서는 브라우저를 서버에서 제어할 수 있도록 설정되어 있습니다. 이는 보안 위험이므로 주의해서 사용해야 합니다. 이 서버는 프로덕션 환경에서 사용하도록 설계되지 않았습니다.
보안 세부 정보: SECURITY.MD
기여하다
이 프로젝트에 대한 여러분의 참여를 환영합니다. 다음 단계를 따라주세요.
이 저장소를 포크하세요.
기능 브랜치를 만듭니다:
git checkout -b my-new-feature
.변경 사항을 커밋합니다:
git commit -m 'Add some feature'
.브랜치에 푸시합니다:
git push origin my-new-feature
.풀 리퀘스트를 제출하세요.
주요 변경 사항의 경우, 먼저 이슈를 열어 변경 사항을 논의하세요. 변경 사항이 반영되도록 테스트를 적절히 업데이트해 주세요.
local-only server
The server can only run on the client's local machine because it depends on local resources.
AI 에이전트가 자연어를 사용하여 웹 브라우저와 상호 작용할 수 있도록 하며, 자동 브라우징, 양식 작성, 비전 기반 요소 감지, 체계적인 브라우저 제어를 위한 구조화된 JSON 응답 기능을 제공합니다.
Related Resources
Related MCP Servers
- -securityFlicense-qualityEnables AI agents to control web browsers via a standardized interface for operations like launching, interacting with, and closing browsers.Last updated -0
- AsecurityAlicenseAqualityAI-driven browser automation server that implements the Model Context Protocol to enable natural language control of web browsers for tasks like navigation, form filling, and visual interaction.Last updated -12MIT License
- -securityAlicense-qualityEmpowers AI agents to perform web browsing, automation, and scraping tasks with minimal supervision using natural language instructions and Selenium.Last updated -4Apache 2.0
- -securityFlicense-qualityEnables AI assistants to control a browser through a set of tools, allowing them to perform web automation tasks like navigation, typing, clicking, and taking screenshots.Last updated -