🤖 Browser-Automatisierungsagent
Ein leistungsstarkes Browser-Automatisierungstool mit MCP (Model Controlled Program), das Web-Scraping-Funktionen mit LLM-gestützter Intelligenz kombiniert. Dieser Agent kann Google durchsuchen, Webseiten aufrufen und Inhalte von verschiedenen Websites wie GitHub, Stack Overflow und Dokumentationsseiten intelligent extrahieren.
🚀 Funktionen
🔍 Google-Suchintegration : Findet und ruft die besten Suchergebnisse für jede Abfrage ab
🕸️ Intelligentes Web Scraping : Maßgeschneiderte Scraping-Strategien für verschiedene Website-Typen:
📂 GitHub-Repositorys
💬 Fragen und Antworten zu Stack Overflow
📚 Dokumentationsseiten
🌐 Generische Websites
🧠 KI-gestützte Verarbeitung : Verwendet Mistral AI zum Verstehen und Verarbeiten von Scraped-Inhalten
🥷 Stealth-Modus : Implementiert den Browser-Fingerabdruckschutz, um eine Erkennung zu vermeiden
💾 Inhaltsspeicherung : Speichert automatisch sowohl Screenshots als auch Textinhalte von Scraped-Seiten
🏗️ Architektur
Dieses Projekt verwendet eine Client-Server-Architektur, die von MCP unterstützt wird:
🖥️ Server : Bewältigt Browserautomatisierung und Web-Scraping-Aufgaben
👤 Client : Stellt die KI-Schnittstelle mit Mistral AI und LangGraph bereit
📡 Kommunikation : Verwendet stdio für die Client-Server-Kommunikation
⚙️ Voraussetzungen
🐍 Python 3.8+
🎭 Dramatiker
🧩 MCP (Modellgesteuertes Programm)
🔑 Mistral AI API-Schlüssel
📥 Installation
Klonen Sie das Repository:
Installieren Sie Abhängigkeiten:
Installieren Sie Playwright-Browser:
Erstellen Sie eine
.env
Datei im Projektstammverzeichnis und fügen Sie Ihren Mistral AI-API-Schlüssel hinzu:
📋 Verwendung
Ausführen des Servers
Ausführen des Clients
Beispielinteraktion
Sobald sowohl der Server als auch der Client ausgeführt werden:
Geben Sie Ihre Abfrage ein, wenn Sie dazu aufgefordert werden
Der Agent wird:
🔍 Suchen Sie bei Google nach relevanten Ergebnissen
🧭 Navigieren Sie zum Top-Ergebnis
📊 Scrapen Sie Inhalte basierend auf dem Website-Typ
📸 Screenshots und Inhalte in Dateien speichern
📤 Verarbeitete Informationen zurückgeben
🛠️ Werkzeugfunktionen
get_top_google_url
🔍 Durchsucht Google und gibt die URL mit dem höchsten Ergebnis für eine bestimmte Abfrage zurück.
browse_and_scrape
🌐 Navigiert zu einer URL und kratzt Inhalte basierend auf dem Websitetyp.
scrape_github
📂 Spezialisiert auf das Extrahieren von README-Inhalten und Codeblöcken aus GitHub-Repositorys.
scrape_stackoverflow
💬 Extrahiert Fragen, Antworten, Kommentare und Codeblöcke von Stack Overflow-Seiten.
scrape_documentation
📚 Optimiert für das Extrahieren von Dokumentationsinhalten und Codebeispielen.
scrape_generic
🌐 Extrahiert Absatztext und Codeblöcke von generischen Websites.
📁 Dateistruktur
📤 Ausgabedateien
Der Agent generiert zwei Arten von Ausgabedateien mit Zeitstempeln:
📸
final_page_YYYYMMDD_HHMMSS.png
: Screenshot des endgültigen Seitenstatus📄
scraped_content_YYYYMMDD_HHMMSS.txt
: Extrahierter Textinhalt von der Seite
⚙️ Anpassung
Sie können die folgenden Parameter im Code ändern:
🖥️ Browserfenstergröße: Passen Sie
width
undheight
inbrowse_and_scrape
👻 Headless-Modus: Setzen Sie
headless=True
für unsichtbaren Browserbetrieb🔢 Anzahl der Google-Ergebnisse: Ändern Sie
num_results
inget_top_google_url
❓ Fehlerbehebung
🔌 Verbindungsprobleme : Stellen Sie sicher, dass Server und Client in separaten Terminals ausgeführt werden
🎭 Playwright-Fehler : Stellen Sie sicher, dass Browser mit
playwright install
installiert sind🔑 API-Schlüsselfehler : Überprüfen Sie, ob Ihr Mistral-API-Schlüssel in der
.env
Datei korrekt festgelegt ist🛣️ Pfadfehler : Aktualisieren Sie bei Bedarf den Pfad zu
main.py
inclient.py
📜 Lizenz
🤝 Beitragen
Beiträge sind willkommen! Senden Sie gerne einen Pull Request.
Erstellt mit 🧩 MCP, 🎭 Playwright und 🧠 Mistral AI
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Ermöglicht intelligentes Web Scraping durch ein Browser-Automatisierungstool, das Google durchsuchen, zu Webseiten navigieren und Inhalte von verschiedenen Websites extrahieren kann, darunter GitHub, Stack Overflow und Dokumentationsseiten.
Related MCP Servers
- AsecurityFlicenseAqualityEnables browser automation using Python scripts, offering operations like taking webpage screenshots, retrieving HTML content, and executing JavaScript.Last updated -419
- -securityFlicense-qualityProvides AI agents and coding assistants with web crawling and RAG capabilities, allowing them to scrape websites and perform semantic searches on the crawled content.Last updated -2
- AsecurityAlicenseAqualityEnables AI models to fetch text content from URLs, extract links from web pages, and search the web using Brave Search with automatic content retrieval from top results. Provides comprehensive web scraping and search capabilities with robust error handling.Last updated -5MIT License
- -securityAlicense-qualityEnables AI agents to perform undetectable browser automation that bypasses Cloudflare, antibots, and social media blocks. Provides 105 tools for element extraction, network debugging, and real-world web scraping with a 98.7% success rate on protected sites.Last updated -72MIT License
Appeared in Searches
- Information about scraping tools and techniques
- A server for finding rental listings on platforms like Facebook, Craigslist, Zillow, and Realtor.com
- Automating a QA End-to-End Workflow
- Resources and Tools for Frontend Development (e.g., Jira, Figma, GitHub)
- A method for finding LinkedIn posts that mention a key phrase