Voces del pasado, ya presentes. Cómo la IA ha cambiado la voz.

El reconocimiento de voz y la creación de voces sintéticas han pasado del ptsé al "ya está" en 12 meses, mientras garabateábamos con Dall-e y tonteábamos con ChatGPT.

jun 25, 2023

Acudíamos al DES en Málaga hace unos días y me quedé intrigado porque apenas se prestaba atención a un hecho fabuloso: los ponentes hablaban en inglés o en español, y bajo su imagen proyectada en pantalla surgían a borbotones los subtítulos con la traducción en tiempo real. Y no fallaban. O apenas fallaban.

Llevaba esperando este momento desde que vi una demo de Google en 2011 para Android. Pero han tenido que pasar doce años. Doce. En particular, el reconocimiento de voz en español era poco preciso. Hasta que hace unos meses llegó Whisper de OpenAI. Lo he probado en mi Mac para transcribir audio de entrevistas y videoconferencias y funciona muy, muy bien.

Pero, ¿cuánto tendremos que esperar para que los sistemas de filtrado de voz que prometen tecnologías como el Spatial Audio de Apple nos permitan escuchar en nuestra lengua, a una persona que habla otro idioma? ¿Y posiblemente con su misma voz? Me apuesto con vosotros lo que queráis a que no pasarán otros 12 años.

Los últimos meses han sido un no parar de eventos sorprendentes sobre creación de voz sintética, réplica de voces para lectura de textos (el caso de esta locutora me dejó pensando) y modificación del timbre voz en tiempo real. Desde la startup valenciana VoiceMod (la descubrí con este Ted Talk) al VoiceBox recién anunciado por Meta no paran de anunciarse mejoras en el resultado o en la eficiencia. ElevenLabs, creada en enero 2023 para construir réplicas de nuestra voz, acaba de levantar fondos de nuevo. Cada vez se necesitan menos minutos de grabación, para que sea nuestra propia voz la que lea los cuentos a los nietos de nuestros nietos.

Hace 12 meses exactos investigué si el Economist usaba voz sintética para poner audio a sus artículos. Descubrí que usaban locutores humanos, entre otras razones porque argumentaban que todavía no sonaba natural. Pero en enero, escuché las voces de Apple -every book deserves to be heard- y comprendí que la creación de voz sintética acaba de atravesar su uncanny valley. Lo que queda por llegar nos sorprenderá menos, porque los límites parecen haberse derretido.

El domingo que viene vuelvo a tu buzón,

Fernando.

Midjourney prompt: audio waves in beautiful colours made by a synthetic AI machine spreading over a crowd listening to the speaker

¿Con ganas de más?

Enlaces que he explorado esta semana y me han parecido relevantes:

Meta anuncia VoiceBox, nos deja a todos con la boca abierta y luego explica que es demasiado peligroso y que no van a liberarlo (más o menos lo mismo que pasó con GPT-2 en enero 2019, que se terminó liberando). No dejéis de ver el vídeo del primer link. Aún estoy colocando la mandíbula en su sitio. META, AI BUSINESS.
Me encanta #DiffuseTogether, el challenge que Stability y Peter Gabriel lanzaron y que ahora ha anunciado los ganadores. Los vídeos generados con IA revisando canciones de Peter Gabriel son sorprendentes y bellos. STABLE FOUNDATION YOUTUBE CHANNEL
Cool tool alarm: he estado jugando un poco con Gamma, una de las varias herramientas que usan gen IA para crear presentaciones. GAMMA
Es difícil no haberse enterado a estas alturas, pero uno se ve obligado a traerlo aquí. McKinsey ha evaluado el valor potencial para la economía global del uso de las IA generativas. Mucho dinero. O eso dicen ellos. McKINSEY
La semana pasada hablábamos del futuro de las búsquedas online. Y ahora os traigo un buen mapa de startups trabajando con IA generativa. Ponen foco en You.com y en Perplexity. Dos descubrimientos más a la mochila esta semana. LINK
Aplicada a la investigación UX el potencial de la IA es revolucionario. Puede limitar prejuicios, superar barreras culturales y lingüísticas, realizar investigaciones contextuales, específicas y basadas en “triggers”, recopilar datos 24 x 7, escalar ilimitadamente y analizar datos durante las entrevistas para descubrir comportamientos y actitudes en tiempo real. LINK
En la intersección de la IA y el diseño, Figma anuncia la compra de Diagram (nos os perdáis las grabaciones de pantalla que son autoexplicativos). FIGMA
Los grandes inversores institucionales presionan a las empresas tecnológicas para que se responsabilicen del posible uso indebido de la IA. FINANCIAL TIMES (sin paywall)
Stability AI lanza Stable Diffusion SDXL 0.9 y los ejemplos muestran que compiten seriamente con MidJourney. STABILITY.AI
ChatGPT puede ayudarnos a crear narrativas o argumentos más consistentes. Se han comparado presentaciones a inversores realizadas con IA generativa con otras realizadas sólo por humanos. Ganan las que se apoyan en IA, de calle. Los inversores de este experimento afirman que los pitch decks generados por GPT-4 son 2 veces más convincentes que los realizados por humanos. CLARIFY CAPITAL

Voces del pasado, ya presentes. Cómo la IA ha cambiado la voz.

El reconocimiento de voz y la creación de voces sintéticas han pasado del ptsé al "ya está" en 12 meses, mientras garabateábamos con Dall-e y tonteábamos con ChatGPT.

¿Con ganas de más?

Discusión sobre este post