¿Música "buena" creada de cero por IA? Check.
Suena música de fondo, ... dramatic, spatial, instrumental, epic. Otro hito acaba de ser conseguido por la IA generativa. Suno y Udio crean canciones "de cero" que suenan... bien.
Estaba buscando la excusa perfecta para dar a conocer a la audiencia de este newsletter mi hobby más insólito: componer canciones (Spotify y Apple Music). Y la aparición de Suno v3 y Udio me la han servido en bandeja. El año pasado me bajé a Chiclana a grabar con Marko Katier, un productor musical con el que he aprendido y disfrutado de lo lindo. Y hablamos mucho de IA, claro. Corría el mes de septiembre y los profesionales de la industria musical se encontraban en un momento de escepticismo parecido al de los diseñadores gráficos antes de la aparición de Dall-e, Midjourney o Stable Diffusion allá por mayo 2022: “La IA ya está integrada en nuestros procesos y es una herramienta maravillosa. Pero una IA que componga y produzca desde cero es improbable”.
En un artículo de junio 2023 en Rolling Stone, se escribía alto y claro:
Puede que la IA generativa sea capaz de producir redacciones universitarias convincentes e ilustraciones estilo póster cinematográfico sin ayuda humana, pero ¿canciones pop completas y convincentes con voz y letra? Todavía no es posible, en gran parte por la cantidad de sutiles complejidades de una pieza musical grabada, desde la composición subyacente hasta las inflexiones vocales, pasando por la cola de reverberación de la caja.
Quizá algunos lectores se sientan confundidos. El año pasado todos los medios de comunicación corearon la noticia de un tema creado por IA, y cantado por un falso Drake y The Weekend. Pero la realidad (estropeando un buen titular) era que esa canción se trataba de una composición humana cuya única intervención artificial fue la clonación de las voces de los dos conocidos artistas. Hasta hace pocas semanas, la composición musical por IA simplemente no estaba a la altura.
Pero la llegada de Suno (y en especial, su version 3 hace un mes) lo cambió todo. Y para rematarlo, la semana pasada se presentó Udio, un nuevo modelo al que las críticas ya sitúan por delante: “revela una asombrosa capacidad para captar la emoción en voces sintéticas [...] Llevo probándolo algo más de una semana y, en mi opinión, es un momento similar al de Sora para la música creada por IA”. Podéis escuchar muchos ejemplos en las webs de uno y otro servicio. Como este temazo disco que acumula escuchas (o esta versión del Rising Sun, o este tema country o …) y puede terminar metiéndose en la cabeza. ¿El comentario general cuando doy a escuchar estas creaciones a la gente? Mejor que mucho de lo que hoy se escucha en la radio.
Les damos un prompt con instrucciones sobre el tipo de canción que queremos crear y podemos suministrar nosotros la letra o que la escriban ellos (usando GPT-4). Ellos hacen el resto: la melodía, las voces, la composición. Técnicamente, Suno y Udio funcionan de forma similar a los LLMs. Han sido entrenados con toneladas de canciones etiquetadas con descriptores de texto que les ayudan a construir melodías y ritmos originales. Según uno de los creadores de Suno, utiizan una combinación de modelos de transformación y difusión. En una entrevista con Lightspeed Venture Partners, Mikey Shulman explica: "No todo el audio se hace con transformadores, hay mucho audio que se hace con difusión, y estos dos métodos tienen pros y contras". En realidad, no se ofrecen demasiadas pistas técnicas. Los dos modelos están siendo bastante opacos al respecto.
La música de fondo: creadores, industria, plataformas… patas arriba.
El impacto de todo esto tiene muchas aristas. Yo creo que por ahora no les afectará demasiado a las grandes discográficas que tienen hoy la sartén de los catálogos existentes por el mango, de donde provienen la mayoría de los ingresos. Tampoco creo que sea una disrupción sería para los intérpretes. Nuestra relación con la música no se limita a la calidad de una canción, sino a la conexión emocional que desarrollamos con ella. Y por supuesto, el intérprete forma parte en muchos casos de esa conexión. Por eso Taylor Swift puede cobrar 300 euros por un concierto.
Harina de otro costal son los creadores musicales. Algunos músicos viven (y la mayoría malvive) de la composición y la creación de música de fondo que suena en producciones audiovisuales o en salas de espera. Las plataformas de streaming llevan ya tiempo combatiendo la monetización de creaciones mediocres realizadas por IA. Mi profesor de música está contratado por RTVE para componer y producir música para documentales y programas de la tele. ¿Será capaz de mantener su trabajo a futuro? Mi predicción es que sí. Su criterio, su formación, sus habilidades técnicas y su capacidad artística harán de su trabajo una mezcla de selección y curación, arreglos y también, claro, composición. Él será “responsable” y será capaz de crear y producir más rápido (y se le exigirá esa productividad).
Cuando alguien teme una destrucción masiva de puestos de trabajo, que son reemplazados por IA, suelo remitirle a este artículo de Noah Smith. Su tesis -siempre estaremos dispuestos a pagar para que otros realicen tareas que podemos hacer con IA, pero a las que no queremos dedicar la IA - no tiene 100% de probabilidad de ocurrencia. Pero la opción contraria tampoco. El optimismo o el pesimismo tienen un punto de credo religioso :-)
Esta semana daba una charla sobre IA generativa en la asamblea anual de la Asociación de Marketing de España. Cuando mencionamos Udio y Suno, entró en el debate la creatividad “disruptiva”: ¿será capaz la IA de llevarnos del barroco al pop-art? ¿O eso queda reservado a los humanos? Pareciera que unas herramientas que aprenden de obras pasadas, no pueden crear algo “intrínsicamente nuevo” (si se puede decir realmente que algo lo sea). Pero como bien apuntaba esta semana Antonio Ortiz en Monos estocásticos sólo en un 1% de los casos si llega, necesitamos creatividad disruptiva. Y yo creo que ese 1% que sí representa un salto cuántico en el arte, la creación, o la invención en general requiere dos componentes: a.- Exploración y estadística bruta; b.- Voluntad o “anhelo” (hat tip a Marta González-Moro) de crear algo nuevo. Lo primero, me recuerda mucho a la IA. Lo segundo suena a motivación humana. De lo cual podría deducirse que un artista con voluntad de trascendencia jugando con IA podría más fácilmente crear un “breakthrough” artístico que antes. O no. Y en cualquier caso, siempre podríamos aportar de contraejemplo el famoso movimiento 37 de AlphaGo.
Por ahora, 200 artistas acaban de firmar una carta abierta en la que piden a plataformas y desarrolladores que cesen el uso de herramientas IA para crear música. La IA tiene el potencial enorme de multiplicar la creatividad humana, dice la carta, pero desafortunadamente algunos la están utilizando para sabotear la creatividad y despreciar a los creadores (utilizando su trabajo sin pagarles por ello). El tema de fondo: ¿tienen Suno o Udio consentimiento para entrenar sus modelos con música protegida por derechos de autor? Un ludismo comprensible, que algunos buscan disfrazar de superioridad moral (o cualitativa) de la creación artística. Un melón que prefiero abrir otro día.
Ya lo he comentado antes por estos lares: que la IA nos gane jugando al ajedrez no ha evitado que la práctica de este juego siga creciendo por doquier. Nos enfrentamos a una disrupción laboral, pero también existirán beneficios que aún no anticipamos. Yo disfruto haciendo canciones. La IA me lo pondrá más fácil. Pero el placer seguirá siendo mío.
El próximo domingo, vuelvo a tu buzón.
Fernando.
De fondo mientras escribía sonaba James. Calentando motores para su concierto en Madrid el 16 de mayo, en el que presentarán su nuevo disco (y van 16) Yummy. Magnífico.
Enlaces de interés para el profesional MCX.
Lecturas seleccionadas de la semana:
El Institute for Human-Centered AI de la Universidad de Stanford ha publicado su estudio anual AI Index 2024 (pdf, 502 páginas),. La IA supera a los humanos en la clasificación de imágenes, el razonamiento visual y la comprensión del lenguaje. Sin embargo, sigue por detrás en tareas más complejas como matemáticas avanzadas, razonamiento lógico y planificación. El informe también destaca los costes crecientes de entrenar la IA y la necesidad de estandarizar las pruebas para medir la responsabilidad, seguridad y protección de los sistemas. NATURE
La publicidad online en EEUU creció un 7,3% en 2023 para alcanzar los 225.000 millones de dólares, según el informe anual de la IAB. Para este 2024 se espera un papel destacado de la IA Generativa como alternativa de las cookies para la personalización y medición de la publicidad. IAB
Meta ha anunciado Llama 3 en dos versiones 8B y 70B de parámetros, que declaran superar en rendimiento a modelos comparables. Hay un modelo de 400B de parámetros todavía en entrenamiento. Llama 3 ya es el modelo detrás de Meta.AI, el asistente accesibles desde sus aplicaciones y que compite con ChatGPT. META
CAIO (Chief AI Officer) es una profesión al alza. En los últimos cinco años se ha triplicado el número de estos directivos, muchos procedentes del ámbito de los datos, la gestión de riesgos y el cumplimiento normativo. Son los responsables del despliegue de la IA: mejoran la eficiencia de los empleados, identifican nuevas fuentes de ingresos y mitigan los riesgos éticos y de seguridad. FINANCIAL TIMES
Un resumen de la charla de Asmita Dubey, Chief Digital and Marketing Officer de L’Oréal Group, en la conferencia GTC de Nvidia. Habla del Marketing Aumentado con IA Gen como el futuro, de una nueva generación de profesionales con igual pericia en creatividad y tecnología (tienen una unidad bautizada como CreAItech), de responsabilidad en el uso de la IA (nunca promocionarán un producto con imágenes artificiales), de ganancias de productividad... Todo esto en solo un año, el tiempo que llevan trabajando con la IA ("aún estamos en fase de aprendizaje", dice). DIGINOMICA
La IA puede ayudar a medir el ROI de la Experiencia de Cliente de diferentes formas: encontrando patrones en los datos, utilizando datos sintéticos y LLMs para prever la reacción de los consumidores, o analizando sentimientos en datos no estructurados. FORRESTER
Dove se ha comprometido a no utilizar jamás imágenes generadas con IA en su publicidad: "En Dove buscamos un futuro en el que las mujeres, y no los algoritmos, decidan y declaren cómo es la belleza real". Consistencia con su posicionamiento de marca. FORBES
Instagram está experimentando con un programa llamado Creator AI, que permitiría a los influencers más populares utilizar IA generativa para interactuar con sus seguidores. Un chatbot imitaría "la voz" de cada influencer y respondería automáticamente en su lugar. NYTIMES
Limitless Pendant es un pequeño wearable (99 $) que sirve para transcribir, resumir o recordar detalles de las reuniones. También se le puede dar acceso al micrófono del ordenador, al correo y al calendario para tener conversaciones más completas. THE VERGE
Cómo Unilever está incorporando la IA para desarrollar nuevos productos e intentar predecir la aceptación que tendrán. LINK
Apple publica una pieza con sugerencias y ejemplos de usos corporativos de sus Vision Pro: espacios de trabajo personalizados para mejorar la productividad, diseño de productos, formación inmersiva y trabajo guiado. APPLE
La startup CommentSold ha lanzado AI ClipHero, una herramienta que toma sesiones de streaming y selecciona los momentos más destacados para crear un clip. Estas sesiones comerciales pueden durar horas, y son muy populares particularmente en Tiktok e Instagram entre adolescentes. TECHCRUNCH
Una foto y un clip de audio es todo lo que necesita VIVA-1 de Microsoft para generar videos híper realistas de personas hablando. MICROSOFT
El periódico más antiguo del Líbano, An Nahar, aprovechando el cansancio de la nación, sin presidente desde hace un año por desacuerdos políticos, le encargó a una agencia que crease un presidente ficticio. Uno, que propone soluciones a los problemas del país, basándose en el archivo histórico del periódico. ADDITION, OURPRESIDENT.AI
Cohere ha anunciado ReRank 3, una funcionalidad que hace más eficiente el RAG (Retrieval Augmented Generation). RAG es la manera de usar modelos de lenguaje con textos y documentos suministrados por una organización, para poder crear asistentes virtuales útiles y enfocados en resolver preguntas concretas. La misma tecnología de los GPTs de OpenAI. COHERE
Reka Core es el new kid in town de los LLMs. Entiende texto, imágenes, video y audio, y sus creadores aseguran que sus prestaciones igualan o superan a los punteros GPT-4, Claude 3 y Gemini Ultra. VENTURE BEAT