Skip to main content
Glama

Youtube Vision MCP

Servidor MCP de YouTube Vision ( youtube-vision )

Servidor MCP (Protocolo de Contexto de Modelo) que utiliza la API de Google Gemini Vision para interactuar con vídeos de YouTube. Permite a los usuarios obtener descripciones, resúmenes, respuestas a preguntas y extraer momentos clave de los vídeos de YouTube.

Características

  • Analiza vídeos de YouTube utilizando la API de Gemini Vision.
  • Proporciona múltiples herramientas para diferentes interacciones:
    • Descripción general o preguntas y respuestas ( ask_about_youtube_video )
    • Resumen ( summarize_youtube_video )
    • Extracción de momentos clave ( extract_key_moments )
  • Enumera los modelos Gemini disponibles que admiten generateContent .
  • Modelo Gemini configurable a través de variable de entorno.
  • Se comunica a través de stdio (entrada/salida estándar).

Prerrequisitos

Antes de utilizar este servidor, asegúrese de tener lo siguiente:

  • Node.js: Se recomienda la versión 18 o superior. Puede descargarla desde nodejs.org .
  • Clave API de Google Gemini: obtenga su clave API de Google AI Studio o Google Cloud Console.

Instalación y uso

Hay dos formas principales de utilizar este servidor:

Instalación mediante herrería

Para instalar youtube-vision-mcp para Claude Desktop automáticamente a través de Smithery :

npx -y @smithery/cli install @minbang930/youtube-vision-mcp --client claude

Opción 1: Usar npx (recomendado para un uso rápido)

La forma más sencilla de ejecutar este servidor es utilizando npx , que descarga y ejecuta el paquete sin necesidad de una instalación permanente.

Puedes configurarlo dentro del archivo de configuración de tu cliente MCP (Claude, VSCode...):

{ "mcpServers": { "youtube-vision": { "command": "npx", "args": [ "-y", "youtube-vision" ], "env": { "GEMINI_API_KEY": "YOUR_GEMINI_API_KEY", "GEMINI_MODEL_NAME": "gemini-2.0-flash" } } } }

Reemplace "YOUR_GEMINI_API_KEY" con su clave API de Google Gemini real.

Opción 2: Instalación manual (desde la fuente)

Si desea modificar el código o ejecutarlo directamente desde la fuente:

  1. Clonar el repositorio:
    git clone https://github.com/minbang930/Youtube-Vision-MCP.git cd youtube-vision
  2. Instalar dependencias:
    npm install
  3. Construir el proyecto:
    npm run build
  4. Configurar y ejecutar: luego puede ejecutar el código compilado usando node dist/index.js directamente (asegúrese de que GEMINI_API_KEY esté configurado como una variable de entorno) o configurar su cliente MCP para ejecutarlo usando el comando node y la ruta absoluta a dist/index.js , pasando la clave API a través de la configuración env como se muestra en el ejemplo npx.

Configuración

El servidor utiliza las siguientes variables de entorno:

  • GEMINI_API_KEY (Obligatorio): Su clave API de Google Gemini.
  • GEMINI_MODEL_NAME (Opcional): El modelo específico de Gemini que se usará (p. ej., gemini-1.5-flash ). El valor predeterminado es gemini-2.0-flash . Importante: Para uso en producción o comercial, asegúrese de seleccionar una versión del modelo que no esté marcada como "Experimental" o "Vista previa".

Las variables de entorno deben configurarse en la sección env del archivo de configuración de su cliente MCP (por ejemplo, mcp_settings.json ).

Herramientas disponibles

1. ask_about_youtube_video

Responde una pregunta sobre el vídeo o proporciona una descripción general si no se hace ninguna pregunta.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • question (cadena, opcional): La pregunta específica sobre el video. Si se omite, se genera una descripción general.
  • Salida: Texto que contiene la respuesta o descripción.

2. summarize_youtube_video

Genera un resumen de un vídeo de YouTube determinado.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • summary_length (cadena, opcional): Longitud de resumen deseada ('corta', 'media', 'larga'). El valor predeterminado es 'mediana'.
  • Salida: Texto que contiene el resumen del vídeo.

3. extract_key_moments

Extrae momentos clave (marcas de tiempo y descripciones) de un vídeo determinado de YouTube.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • number_of_moments (entero, opcional): Número de momentos clave a extraer. El valor predeterminado es 3.
  • Salida: Texto que describe los momentos clave con marcas de tiempo.

4. list_supported_models

Enumera los modelos Gemini disponibles que admiten el método generateContent (obtenido a través de la API REST).

  • Entrada: Ninguna
  • Salida: Texto que enumera los nombres de modelos admitidos.

Notas importantes

  • Selección de modelos para producción: Al utilizar este servidor con fines comerciales o de producción, asegúrese de que el GEMINI_MODEL_NAME seleccionado sea una versión estable y apta para producción. Según las Condiciones de Servicio de la API de Gemini , los modelos marcados como "Experimental" o "Vista previa" no están permitidos para la implementación en producción.
  • Condiciones del servicio de la API: El uso de este servidor se basa en la API de Google Gemini. Los usuarios son responsables de revisar y cumplir las Condiciones del servicio de las API de Google y las Condiciones adicionales del servicio de la API de Gemini . Tenga en cuenta que las políticas de uso de datos pueden variar entre las versiones gratuita y de pago de la API de Gemini. No comparta información confidencial al usar las versiones gratuitas.
  • Responsabilidad del contenido: No se garantiza la precisión ni la pertinencia del contenido generado mediante la API de Gemini. Sea prudente antes de confiar en el contenido generado o publicarlo.

Licencia

Este proyecto está licenciado bajo la Licencia MIT. Consulte el archivo de LICENCIA para más detalles.

Install Server
A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Servidor MCP (Protocolo de Contexto de Modelo) que utiliza la API de Google Gemini Vision para interactuar con vídeos de YouTube. Permite a los usuarios obtener descripciones, resúmenes, respuestas a preguntas y extraer momentos clave de los vídeos de YouTube.

  1. Características
    1. Prerrequisitos
      1. Instalación y uso
        1. Instalación mediante herrería
        2. Opción 1: Usar npx (recomendado para un uso rápido)
        3. Opción 2: Instalación manual (desde la fuente)
      2. Configuración
        1. Herramientas disponibles
          1. 1. ask_about_youtube_video
          2. 2. summarize_youtube_video
          3. 3. extract_key_moments
          4. 4. list_supported_models
        2. Notas importantes
          1. Licencia

            Related MCP Servers

            • -
              security
              F
              license
              -
              quality
              A specialized Model Context Protocol (MCP) server that integrates Google services (Gmail, Calendar, etc.) into your AI workflows. This server enables seamless access to Google services through MCP, allowing AI agents to interact with Gmail, Google Calendar, and other Google services.
              Last updated -
              10
              3
              TypeScript
            • A
              security
              F
              license
              A
              quality
              An MCP (Model Context Protocol) server that provides Google search capabilities and webpage content analysis tools. This server enables AI models to perform Google searches and analyze webpage content programmatically.
              Last updated -
              3
              43
              83
              TypeScript
            • A
              security
              A
              license
              A
              quality
              Implementation of Model Context Protocol (MCP) server that provides tools for accessing Google Cloud's Vertex AI Gemini models, supporting features like web search grounding and direct knowledge answering for coding assistance and general queries.
              Last updated -
              20
              43
              75
              TypeScript
              MIT License
              • Linux
              • Apple
            • -
              security
              F
              license
              -
              quality
              An MCP (Multi-Agent Conversation Protocol) Server that provides a standardized interface for interacting with Google's Cloud Vision API, enabling AI agents to analyze images and extract visual information through natural language.
              Last updated -
              Python

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/minbang930/Youtube-Vision-MCP'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server