Tech & Research

text2edit

Editor de transcripciones para montaje

Editor de transcripciones en el navegador para flujos de montaje documental.

En el proceso de investigación de proyectos como 16 Soles de Marta Ferrer y Artefactos de Guerra de Jorge Caballero, Artefacto se encontró con un problema concreto en la sala de montaje, la necesidad de pasar de una entrevista transcrita a una estructura de edición de forma rápida, controlada y sin depender de herramientas de software propietario. text2edit es la respuesta a esa necesidad.

Se trata de un editor documental que funciona directamente en el navegador, pensado para transformar transcripciones generadas por modelos de reconocimiento de voz en decisiones de montaje exportables a cualquier sistema de edición profesional. El punto de partida del flujo de trabajo es Whisper, el modelo de transcripción de OpenAI, que se ejecuta previamente en Google Colab para generar un archivo de texto con marcas de tiempo. Ese archivo JSON o TXT es el que se carga en text2edit para iniciar el proceso editorial.

text2edit funciona como una interfaz de edición basada en texto vinculada al archivo de vídeo o audio original. Una vez cargada la transcripción con marcas de tiempo, la herramienta presenta dos paneles de reproducción sincronizados; uno para el material fuente y otro para la línea de edición en construcción. El/la montador/a selecciona fragmentos de texto, los incorpora a la línea de tiempo y los reordena o recorta mediante una interfaz visual de canvas.

La integración con un LLM añade una capa de corrección ortográfica y gramatical específicamente orientada al catalán, una lengua que programas de edición ampliamente usados en la industria como Adobe Premiere Pro gestionan con errores o directamente ignoran. Esta función convierte text2edit en un recurso relevante para proyectos que trabajan con lenguas minoritarias donde la precisión textual tiene consecuencias directas en los subtítulos finales y en la toma de decisiones de montaje.

El sistema exporta a múltiples formatos: FCP XML para Final Cut Pro, CMX 3600 EDL para sistemas de edición profesional, SRT para subtitulado y TXT para documentación.

El text-to-edit, entendido como método, propone que la palabra hablada transcrita puede funcionar como unidad de montaje antes de que el montador toque el vídeo. Esto desplaza el eje de la decisión editorial desde el fotograma hacia el lenguaje. En proyectos documentales con gran volumen de entrevistas, ese desplazamiento tiene consecuencias sobre cómo se estructura el tiempo, quién habla, cuánto, y qué queda fuera.

La herramienta está activa, es de código abierto bajo licencia MIT y forma parte del conjunto de recursos técnicos que Artefacto desarrolla para hacer sostenible la investigación documental en lenguas y contextos que las plataformas dominantes tienden a dejar fuera.

Código y documentación: https://github.com/jcaballeroramos/text2edit