EN
Tech & Research

La voz de Javier

Clonación de voz con IA

Un modelo de clonación de voz y un bot de Telegram construidos para preservar la identidad sonora de un ayudante de dirección de cine mientras atraviesa un proceso de laringectomía.

Javier Soto es asistente de dirección con una trayectoria construida en rodajes de alto nivel internacional. Ha trabajado con J.A. Bayona en La sociedad de la nieve, con Elia Suleiman en 7 días en La Habana, y junto a directores como Oliver Stone y Jonathan Glazer. El set de rodaje es un espacio donde la voz manda, literalmente. Coordina equipos, transmite decisiones, sostiene el ritmo de una producción entera. Cuando Javier recibió el diagnóstico de cáncer de laringe, nos pidió algo que pocas veces se convierte en proyecto técnico, clonar su voz antes de que desapareciera. Este corto documental, desarrollado en colaboración con el artista visual holandés Jan Rothuizen, parte de esa petición para construir una investigación sobre lo que significa preservar la voz humana con inteligencia artificial. Jan es artista visual, dibujante y cineasta. Su proyecto Soft Atlas lleva desde 2009 cartografiando ciudades a través de mapas dibujados a mano que mezclan observación, conversación y narración. Ha llevado ese método a formatos como el documental interactivo Refugee Republic y el film VR Drawing Room. Su última pieza, Tracing Colombia, se presentó en IDFA en 2025. Rothuizen trabaja en los límites entre el dibujo, el testimonio y la tecnología.

El sistema desarrollado combina dos modelos. Un LLM genera el texto de las respuestas a partir de un sistema prompt que reproduce el perfil conversacional de Javier, su forma de hablar, sus referencias, su manera de moverse por el mundo del cine. Y un modelo entrenado de audio que convierte ese texto en audio usando un modelo de síntesis de voz entrenado con grabaciones originales de Javier. El resultado es un bot de Telegram con dos modos de funcionamiento; Javier escribe o habla con su nueva voz, y recibe una respuesta en voz. La arquitectura técnica está construida sobre Node.js, con manejo de conversaciones persistentes, sistema de autorización por usuario y administración remota.

El bot permite que Javier pueda comunicarse a través de su voz clonada en situaciones donde la válvula traqueoesofágica que utiliza tras la laringectomía limita la comunicación espontánea. Una herramienta funcional, discreta, integrada en una aplicación que ya forma parte de su vida cotidiana.

La laringectomía no es solo una intervención médica. Es una transformación de la identidad. La voz es el instrumento más inmediato de presencia, el canal por donde una persona se hace reconocible. Este proyecto se inscribe en la tradición de AI for Good, donde los modelos de lenguaje y síntesis de voz dejan de ser herramientas de productividad para convertirse en sistemas de continuidad personal. La tecnología no devuelve la voz perdida pero construye un puente entre lo que fue y lo que puede seguir siendo.

Este proyecto nos recuerda siempre a La Sirenita. En el cuento de Hans Christian Andersen, Ariel es una sirena que cede su voz a una bruja del mar a cambio de piernas humanas. Quiere vivir en tierra, estar cerca del hombre que ama, pertenecer a un mundo que no es el suyo. El precio que paga es el más íntimo que puede imaginar. Sin voz, Ariel existe pero no puede hacerse reconocer. Pierde el instrumento por el que era ella. El cuento termina en tragedia porque la voz no vuelve, y sin ella la identidad se disuelve. Hay algo en esa imagen que se instala con fuerza cuando se trabaja en un proyecto como el de Javier. La diferencia es que aquí la tecnología hace posible lo que el cuento niega. La voz se preserva, se clona, se mantiene activa antes de que el cuerpo la pierda. La resistencia a ceder ese territorio, que en Andersen es imposible de sostener, encuentra en la inteligencia artificial una forma de respuesta. Esta tensión entre identidad, percepción y tecnología atraviesa varios proyectos de Artefacto. Yet, The Faces parte de una pregunta simétrica y complementaria. Si en el proyecto de Javier el sistema tecnológico preserva una voz para que una persona siga siendo reconocible, Yet, The Faces investiga qué ocurre cuando el reconocimiento falla desde dentro. Dos proyectos que trabajan el mismo territorio desde ángulos distintos. En uno, la tecnología extiende la identidad más allá del límite del cuerpo. En el otro, la tecnología revela que el reconocimiento es siempre un proceso frágil, tanto para las máquinas como para las personas.

Código y documentación: github.com/jcaballeroramos/javier-soto-bot-telegram