Agregar y cambiar las palabras de cualquier voz con Adobe VoCo

Si bien se detienen un segundo y se ponen a estudiar sobre cada posibilidad al momento de editar todo tipo de audio, en varios sentidos ya se tienen instrumentos que se pueden comparar con Photoshop para las fotografías, sin embargo, en términos de audio. Logrando ser un retocador, modificador, mezclador, filtrador y poder procesar así diversas formas ese material de audio. No obstante, todavía existe un largo camino que seguir en cuanto a los procesos de la resíntesis para el material que deba ser muy fiel a cada muestra recién hecha.

En una conferencia realizada hace poco en MAX, las personas que pertenecen a Adobe y los responsable de instrumentos conocidos de software como Illustrator y Audition, han expuesto así lo qué pensarían como un “Photoshop para el audio”, por lo menos en cuanto a la grabación de voces, como dijo el creador Zeyu Jin en la exposición del proyecto designado como VoCo, se trata de un algoritmo el cual, sin estar completamente seguro, estará asequible de forma comercial, mostró diversos ejemplos atrayentes.

En sí, es un anexo del Adobe Audition elaborado por los miembros del grupo de investigación de la empresa y la Universidad de Princeton. Este software se asienta en el método de la resíntesis el cual le deja editar y añadir palabras a un concreto discurso, logrando así (re)sintetizar la vos ya registrada. En la exposición por dar un ejemplo, lograría verse como cualquier frase, en este caso “besó a sus perros y su mujer” se ha podido intercambiar los sustantivos a través del texto, y después se le añadió la palabra “jordan” en vez de “mujer” y conjuntamente, se le agrega material que no tenga la grabación de “tres veces”.

Si bien en el anuncio hecho de manera oficial en donde Adobe conversa sobre tener la posibilidad de poder “modificar o añadir una o muchas palabras en grabaciones de doblaje, diálogos y también en la narración” gracias a las equivocaciones o ajustes requeridos, es obvio que se trata de una tecnología en donde se pueden obtener muchas ventajas y beneficios, es posible que algunos de ellos aún no sean tan ventajosos, como al momento de tratar asuntos políticos o materiales de evidencias, etc. En realidad, en su primera exposición se hace mención que es más sencillo conseguir el algoritmo que el realizar una metodología que tenga alguna característica, como una marca d agua para que de esa manera logre detectar cuando se ha realizado, de esa forma evitar que caiga en las manos que no deberían.

No obstante, mirando más allá de las conspiraciones y cada incógnita ética a la que el software pudiese desprenderse, es significativo el recalcar lo mucho que se aproxima el algoritmo dentro de la metodología o síntesis para una voz bastante parecida a la señalada en el discurso. Por eso, y según lo que señalan los de Adobe, es requerido el poseer por lo menos unos 20 minutos para la grabación de una voz, de tal manera que se logre estudiar todo el material a hondo para poder recrearla en otras palabras.

Es así como el mismísimo Zeyu Jin ha dicho en la presentación que su idea es poder crear una revolución en el audio, parecida a lo que causó Photoshop en cuanto a términos fotográficos. Todavía no se sabe mucho de VoCo ya que solo es el principio de otros instrumentos parecidos, pero es obvio que por lo menos carga interés dentro del audio, por lo que solo hay que estar en la espera para conocer nuevos datos.