Servidor MCP de texto a voz (TTS) de Kokoro
Servidor MCP de texto a voz Kokoro que genera archivos .mp3 con opción de cargar a S3.
Usos: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Configuración
- Clonar a un repositorio local.
- Descargue los pesos Kokoro Onnx para kokoro-v1.0.onnx y voices-v1.0.bin y guárdelos en el mismo repositorio.
Agregue lo siguiente a sus configuraciones de MCP. Actualícelo con sus propios valores.
Instalar ffmmeg
Esto es necesario para convertir archivos .wav a .mp3
Para Mac:
Para ejecutar localmente, agréguelos a su archivo .env. Consulte env.example, cópielos a .env y modifíquelos con sus propios valores.
Variables de entorno admitidas
AWS_ACCESS_KEY_ID
: Su ID de clave de acceso de AWSAWS_SECRET_ACCESS_KEY
: Su clave de acceso secreta de AWSAWS_S3_BUCKET_NAME
: nombre del depósito S3AWS_S3_REGION
: región S3 (por ejemplo, us-east-1)AWS_S3_FOLDER
: Ruta de la carpeta dentro del depósito S3AWS_S3_ENDPOINT_URL
: URL de punto final personalizada opcional para almacenamiento compatible con S3MCP_HOST
: Host al que vincular el servidor (predeterminado: 0.0.0.0)MCP_PORT
: Puerto para escuchar (predeterminado: 9876)MCP_CLIENT_HOST
: Nombre de host para las conexiones del cliente al servidor (predeterminado: localhost)DEBUG
: Habilitar el modo de depuración (establecido en "verdadero" o "1")S3_ENABLED
: Habilitar cargas S3 (establecido en "verdadero" o "1")MP3_FOLDER
: Ruta para almacenar archivos MP3 (el valor predeterminado es la carpeta 'mp3' en el directorio de scripts)MP3_RETENTION_DAYS
: Número de días que se conservarán los archivos MP3 antes de su eliminación automáticaDELETE_LOCAL_AFTER_S3_UPLOAD
: Si se deben eliminar los archivos MP3 locales después de una carga S3 exitosa (establecido en "verdadero" o "1")TTS_VOICE
: Voz predeterminada para el cliente TTS (predeterminado: af_heart)TTS_SPEED
: Velocidad predeterminada para el cliente TTS (valor predeterminado: 1.0)TTS_LANGUAGE
: idioma predeterminado para el cliente TTS (predeterminado: en-us)
Ejecución del servidor local
El método preferido es utilizar UV.
Uso del cliente TTS
El script mcp_client.py
permite enviar solicitudes TTS al servidor. Se puede usar de la siguiente manera:
Configuración de conexión
Al ejecutar el servidor y el cliente en la misma máquina:
- El servidor debe vincularse a
0.0.0.0
(todas las interfaces) o127.0.0.1
(solo localhost) - El cliente debe conectarse al
localhost
o127.0.0.1
Uso básico
Leer texto de un archivo
Personalización de la voz y la velocidad
Deshabilitar la carga de S3
Opciones de la línea de comandos
Gestión de archivos MP3
El servidor TTS genera archivos MP3 que se almacenan localmente y, opcionalmente, se suben a S3. Puede configurar la gestión de estos archivos:
Almacenamiento local
- Establezca
MP3_FOLDER
en su archivo.env
para especificar dónde se almacenan los archivos MP3 - Los archivos se guardan en esta carpeta a menos que se eliminen automáticamente
Limpieza automática
- Establezca
MP3_RETENTION_DAYS=30
(o cualquier número) para eliminar automáticamente los archivos con más días de antigüedad - Establezca
DELETE_LOCAL_AFTER_S3_UPLOAD=true
para eliminar archivos locales inmediatamente después de una carga S3 exitosa
Integración S3
- Habilitar o deshabilitar las cargas S3 con
S3_ENABLED=true
oDISABLE_S3=true
- Configurar las credenciales de AWS y la configuración del depósito en el archivo
.env
- Las cargas S3 se pueden deshabilitar por solicitud utilizando la opción
--no-s3
del cliente
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Tools
Un servidor que genera archivos de audio MP3 a partir de texto utilizando la tecnología Kokoro TTS con capacidades de carga S3 opcionales.
Related MCP Servers
- AsecurityFlicenseAqualityA Model Context Protocol server that provides text-to-speech capabilities using the Kokoro TTS model, offering multiple voice options and customizable speech parameters.Last updated -4181JavaScript
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -107JavaScriptMIT License
- -securityAlicense-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -21JavaScriptMIT License
- -securityFlicense-qualityAn MCP server that downloads videos/extracts audio from various platforms like YouTube, Bilibili, and TikTok, then transcribes them to text using OpenAI's Whisper model.Last updated -5Python