Del Perceptrón a la IA generativa: la odisea de las redes neuronales.
Un repaso a los hitos históricos que nos han traído hasta ChatGPT, Midjourney y Sora.
Hace un tiempo me leí Genius Makers, the mavericks who brought AI to Google, Facebook and the world. Escrito por Cade Metz y publicado antes de la llegada de ChatGPT, el libro narra la historia de los científicos que impulsaron el uso de las redes neuronales dentro del campo de la inteligencia artificial. Durante décadas, este tipo de algoritmo fue “ninguneado” por la comunidad científica. La llegada de Internet, el acceso masivo a datos y la capacidad computacional puso el bautizado deep learning en su sitio y facilitó la explosión de la IA generativa que hoy vivimos. He contado la historia de las redes neuronales en muchas ocasiones, pero no la había puesto por escrito hasta ahora.
Antes de hacerlo, os dejo el enlace al podcast y la entrevista que me hicieron en Kinton Brands. Hemos hablado de la integración de la IA en el marketing y el futuro de la interacción humana con marcas a través de la tecnología. ¿Cuál debería ser el papel del branding y la estrategia de marca, en un contexto en el que los agentes virtuales podría tomar las decisiones en nombre de los usuarios?
Los hitos que selecciono a continuación también son artificiales, en cierto sentido. Existe mucho trabajo previo e intermedio que no es mencionado. Y muchos investigadores que han aportado descubrimientos terminan sin crédito en esta historia. Pero creo que es bueno esbozar una línea del tiempo básica que ayude a poner perspectiva y a entender mejor dónde estamos y qué podemos esperar.
1950s - El Perceptrón: la chispa inicial.
El perceptrón fue inventado en 1943 por Warren McCulloch y Walter Pitts. Se trataba de un algoritmo de clasificación que realiza sus predicciones basándose en una función lineal que combina un conjunto de pesos con el vector de características y constituyó el fundamento de las redes neuronales modernas. La primera implementación en hardware fue la máquina Mark I Perceptron construida en 1957 por Frank Rosenblatt. Con los años, se llegaron a construir perceptrones más avanzados, y se descubrió que las redes neuronales con varias capas tenían mejor rendimiento. Pero aunque el potencial era evidente, rápidamente se detectaron limitaciones en la capacidad de aprendizaje.
En su libro "Perceptrons", Marvin Minsky expuso las limitaciones del perceptrón simple, argumentando que no podría aprender configuraciones complejas. Este libro marcó una reducción significativa de interés y financiación en la investigación de las redes neuronales, un período conocido como el "invierno de la IA". Incluso después de la llegada de la solución al problema de la mano de Rumelhart y Hinton, la comunidad de investigadores de IA siguió recurriendo al libro de Minsky como prueba de que las redes neuronales no funcionarían.
1986 - Backpropagation: la solución al problema.
La retropropagación, articulada por Rumelhart y Hinton, permitió que las redes neuronales aprendieran, ajustando sus parámetros internos. El aprendizaje consistía ahora en dos dos fases (aunque la novedad era la fase de ajuste hacia atrás): propagación del estímulo hacia adelante en la red para generar una salida, y luego una fase de adaptación donde los errores de salida se usan para actualizar los pesos, propagando este error en sentido inverso. Esto permitió que las redes aprendieran a reconocer distintas características de los datos de entrada, organizando sus nodos internos para responder adecuadamente nuevas entradas después del entrenamiento.
1990s - Redes Neuronales Convolucionales (CNN).
A finales de los años 80, Yann LeCun (considerado uno de los tres padrinos de las redes neuronales y actual Chief Scientist Officer en Meta) propuso una arquitectura inspirada en el estudio del cortex visual de los animales para construir redes neuronales que ayudarían a las computadoras a reconocer imágenes. En 1994, trabajando en los laboratorios Bell de AT&T, creó los que se denominó Red Neuronal Convolucional, que podía identificar caracteres escritos a mano. En 1998, los bancos utilizaban ya esta tecnología para leer más del 10% de todos los cheques en los Estados Unidos. Se trató de la primera aplicación práctica a escala de las redes neuronales. Geoffrey Hinton declaró que fue Yann LeCun el que mantuvo la antorcha de la esperanza de estas tecnologías durante las décadas oscuras del deep learning.
Aunque no estaba basada en redes neuronales (se trataba de IA simbólica), suelo marcar la derrota de Garry Kasparov a manos de Deep Blue de IBM porque se trata de un hito que muchos de mi generación recordamos. Ocurrió en 1997, y su victoria arrojaba renovada luz sobre el potencial de la IA.
2011 - 2013 - Google Brain: Jeff Dean, Andrew Ng y Geoffrey Hinton.
El libro Genius Makers arranca con la historia de la subasta de DNNResearch, la startup que Geoffrey Hinton creó con dos colaboradores (entre ellos Ilya Sutskever ahora en OpenAI que estuvo en los titulares tras la salida y readmisión de Sam Altman). A dicha subasta acudieron Baidu, Google, Microsoft y Deepmind (posteriormente adquirida por Google). Con apenas tres meses de vida, Google ganó y pagó 40 millones de dólares en 2013. Hinton había sido “becario” en Google un año antes (y en Microsoft, un año antes, cuando hizo ver a sus superiores que las GPUs de Nvidia eran perfectas para correr redes neuronales). Jeff Dean, responsable del área de IA de Google (Google Brain) fue claramente influido por Andrew Ng, que había sido discípulo de Hinton y puso en alerta a Dean del potencial de las redes neuronales en el futuro de la IA. Me gusta destacar el papel de Dean como el ejecutivo que convenció al establishment empresarial de Google de apostar por las redes neuronales y que desencadenó un dominio en este campo casi absoluto (hasta la llegada de OpenAI).
2012 - El Cat Paper: a veces veo gatos.
El dominio de Google en el desarrollo de las redes neuronales arranca con este paper, en el que investigadores de Google (incluidos Jeff Dean y Andrew Ng) demostraron que una red neuronal profunda podía identificar imágenes de gatos en un conjunto de datos masivo de imágenes descargadas de Internet, sin necesidad de ser previamente etiquetadas. La capacidad de las redes neuronales para realizar un aprendizaje no supervisado a gran escala, revolucionó un caso de uso -el reconocimiento de imágenes- que se ha colado en cientos de aplicaciones de nuestra vida cotidiana, desde el reconocimiento de matriculas por las autoridades de tráfico hasta el reconocimiento facial en nuestros móviles.
2014 - Las GANs de Ian Goodfellow.
El arranque de la IA generativa se situa en 2014. De hecho, el término “generativo” se lo debemos a las redes generativas antagónicas (GANs) de Ian Goodfellow. Una red crea y la otra aprueba o desaprueba. En este artículo de MIT Tech Review, cuentan cómo se le ocurrió la idea una noche de cervezas con amigos:
Una noche de 2014, Ian Goodfellow se fue de celebración con un compañero de doctorado que acababa de graduarse. En Les 3 Brasseurs, uno famoso bar en Montreal, unos amigos le pidieron ayuda para un complicado proyecto en el que estaban trabajando: un ordenador que pudiera crear fotos por sí solo. […] Mientras reflexionaba sobre el problema con su cerveza, se le ocurrió una idea. ¿Y si se enfrentaban dos redes neuronales?
2016 - AlphaGo de DeepMind
Siendo sincero, aún no he profundizado mcuho en la IA detrás de AlphaGo, el algoritmo de DeepMind que venció a Lee Sedol, campeón mundial de Go, el único juego en el que la inteligencia natural no había sido superada por la artificial. Me gusta hacer referencia a este hito porque le proporció a DeepMind proyección mundial (siendo precursor de AlphaFold años después) y porque hay un movimiento (el 37) que pone en duda la idea de que la IA no puede ser “radicamente disruptiva”. De su página web:
AlphaGo combina redes neuronales profundas con algoritmos de búsqueda avanzados. Una red neuronal -conocida como "red de políticas"- selecciona la siguiente jugada a realizar. La otra red neuronal -la "red de valores"- predice el ganador de la partida.
Al principio, introdujimos a AlphaGo en numerosas partidas amateur de Go para que el sistema aprendiera cómo juegan los humanos. A continuación, le pedimos que jugara miles de veces contra diferentes versiones de sí mismo, aprendiendo cada vez de sus errores, un método conocido como aprendizaje por refuerzo. Con el tiempo, AlphaGo mejoró y se convirtió en un mejor jugador.
2017 - Atención (y un transformador) es todo lo que necesitas.
Posiblemente el hito más referenciado de toda esta historia. La arquitectura Transformer, presentado por 8 investigadores de Google en el paper “Atención es todo lo que necesitas” se convirtió en la base que permitió a OpenAI desarrollar GPT-2. Suelo apuntar a este artículo de Timothy Lee y Sean Trott a los que quieran profundizar en español sobre la arquitectura Transformer y el funcionamiento de los grandes modelos de lenguaje (LLMs).
2019 - GPT-2. Y el resto es historia.
El mismo año en que el Premio Turing, considerado el "Nobel de la Informática", fue otorgado a Geoffrey Hinton, Yann LeCun y Joshua Bengio por su trabajo con las redes neuronales, OpenAI anunció GPT-2, un modelo de lenguaje que pilló a la comunidad científica por sorpresa con su habilidad para generar textos coherentes y contextualmente relevantes.
Aún recuerdo leer la noticia en The Guardian (y usarla en mis clases sobre IA y marketing en IE Business School). Aunque OpenAI se había comprometido a liberar su código, durante varios meses no lo hizo por miedo a un uso inadecuado por parte de los malos, aunque terminaron haciéndolo después de verano. Y ya no fue hasta mayo de 2022 en que la beta de Dall-E -una IA que creaba imágenes con instrucciones en texto, también desarrollada por OpenAI- empezó a abrir los ojos del gran público a la idea de una IA generativa que finalmente parecía funcionar. La creatividad dejaba de ser un ámbito exclusivo del hombre.
En agosto 2022, muchos leímos con incredulidad extractos de las conversaciones que un trabajador de Google mantenía con LaMDA (un LLM que la empresa estaba desarrollando) y que publicó para alertar al mundo de que el chatbot tenía consciencia. Y por último, el lanzamiento de ChatGPT en noviembre 2022 terminó de sacarnos a todos nuestra ingenua ignorancia. Por ahora se han ido acallando algo los tambores del Skynet que se avecina. Pero imagino que es cuestión de tiempo que algún nuevo breakthrough nos vuelva a servir el apocalipsis en los titulares del desayuno.
Y hasta aquí hemos llegado (por ahora).
Desde los humildes comienzos del Perceptrón hasta la sofisticación de ChatGPT, nuestra línea de tiempo refleja años de travesía por el desierto, con una aceleración exponencial en los últimos años. Como si de un 'clickbait' de la realidad se tratara, la IA ha pasado de ser eterna promesa a convertirse en el titular principal. Cada avance, cada salto exponencial, nos acerca a una era donde "inteligente" será el menos inteligente de los adjetivos para calificar de lo que las máquinas serán capaces. Es difícil no encoger los hombros y poner cara de desconcierto ante lo que se nos viene encima. El futuro no espera ni se auto-genera. Parece más bien que otros lo generan por nosotros. Tenemos que coger las riendas (aunque no termine de saber a ciencia cierta a qué me refiero con esta manida expresión).
El próximo domingo, vuelvo a tu buzón.
Fernando.
Esta semana hemos hecho una primera presentación pública del Foro IA en MCX (Marketing, Comunicación y Experiencia de Cliente), con gran éxito de convocatoria. Entramos ahora en una fase de admisión de nuevos socios. Si estás interesado, escríbeme.
¿Qué ocurre en el Foro-ia?
Investigación y contenidos. Recursos dedicados para entender impacto de la IA en disciplinas MCX con investigación propia. Ejemplos: Informe SGE. Manifiesto Humanidad Aumentada. Informe Agentes IA (en curso). Recomendaciones sobre Reputación e IA (en curso)
Aprendizaje y formación. Facilitar el intercambio de conocimientos y experiencias en IA en MCX. Ejemplos: Visita Siemens. Workshop Search Generative Experience. Visita Antolín. Workshop Roche (en mayo).
Networking y comunidad. Fomentar la colaboración entre profesionales de disciplinas MCX con expertos en las áreas tecnológicas. Ejemplos: Evento Meta - Ateneo; Comisiones y Grupos de trabajo.
El 7 de mayo repetimos el evento, por si quieres venir, o te quedaste sin plaza (apúntate aquí). No nos mires. Únete :)
Enlaces de interés para el profesional MCX.
Lecturas seleccionadas de la semana:
Moderna lleva más de un año usando IA generativa para mejorar la productividad de sus trabajadores y los procesos de investigación y desarrollo de medicamentos. Algunos resultados después de usar ChatGPT durante dos meses: Moderna tenía 750 GPT en toda la empresa; el 40% de los usuarios semanalmente activos crearon GPTs; cada usuario tiene una media de 120 conversaciones con ChatGPT Enterprise a la semana. Con la ayuda de OpenAI, ha desarrollado GPTs como Dose ID para visualizar grandes conjuntos de datos, o Policy Bot GPT, que ayuda a los empleados a encontrar respuestas rápidas sobre políticas internas sin necesidad de buscar en documentos interminables. El case study de OpenAI con Moderna tiene mucho de marketing, y algún aprendizaje útil (cómo usar IA para entrenar en IA, por ejemplo). OPENAI
El 95% de los trabajadores considera valioso trabajar con IA generativa, pero su principal preocupación es que no confían en que las organizaciones garanticen resultados positivos para todos. El último informe (PDF) de Accenture ofrece ideas válidas para abordar este tipo de proyectos. ACCENTURE
Más consultoras haciendo su agosto con la IA. Un 20% de los ingresos de BCG este año provendrán de la integración de la IA en las operaciones y procesos de sus clientes. La consultora espera que la partida aumente hasta el 40% en 2026. FT.COM
El explosivo anuncio de TED realizado con Sora, sigue estando en boca de todos en la industria publicitaria. Y también la entrevista (traducida al español) al director y creador del mismo, Paul Trillo. TOM’S GUIDE, BUSINESS INSIDER
Microsoft ha presentado Phi-3 Mini, un SML lo suficientemente ligero como para funcionar en un smartphone, con unas capacidades similares a las de ChatGPT 3.5. Y Apple anuncia (y libera) OpenELM. El caso de Apple es paradigmático. Todo el mundo espera anuncios importantes en su evento de junio en relación a IA generativa. La posibilidad de utilizar alguna herramienta en el iPhone, sin salir a la nube cimentaría su estrategia de privacidad. La idea de que estos modelos terminen siendo nuestros agentes IA de confianza, guardando nuestro histórico, datos, preferencias, conversaciones en el móvil y con mínimo riesgo de hackeo. THE REGISTER (microsoft, apple)
Ikea va a dar formación en IA a más de 3.000 empleados y 500 directivos, "abrazando el futuro de la tecnología y la humanidad". Los cursos que impartirá incluyen Fundamentos de la IA, IA Responsable, Dominio de la Gen IA y Formación Algorítmica para la Ética. El objetivo de Ikea es incorporar un conocimiento profundo de la IA en toda la organización. IKEA
Pero no es tan sencillo como “dar formación”. La incorporación de la IA en los flujos diarios de trabajo requiere de competencias totalmente nuevas. Los métodos tradicionales de formación no son suficientes, se necesitan soluciones creativas. En este artículo, diferentes directivos ofrecen soluciones que han aplicado en sus empresas para lograr una integración eficiente de la IA. FAST COMPANY
Gran evento de PR en el que muchos periodistas tecnológicos han recibido su Rabbit R1 y no es evidente que haya dejado un sabor muy positivo. Leyendo entre líneas de periodistas que no quieren “destrozar” el aparato (como sí parecen haberlo hecho con el pin de Humane), parece que las limitaciones son severas (por ahora). Ha habido incluso algunas acusaciones de fraude (que su LAM no es real) pero con poco fundamento. Lo principal, parece que la cosa aún no esté a la altura, pero quizá siga siendo válido como “minimo producto viable”. THE VERGE
Más gadgets IA. Y este parece ir cogiendo fuerza (yo estoy a poquito de hacerme con unas). Meta actualiza sus Ray Ban inteligentes para hacerlas multimodal. Las gafas procesan ahora información visual, el usuario puede pedirles que traduzcan un texto, identifiquen un objeto o faciliten información del entorno, todo sin usar las manos. META
Y más: Iyo One es un dispositivo inteligente que literalmente se lleva en la oreja. Es autónomo (no necesita conectarse al teléfono) y admite comandos de voz para actuar como asistente en todo tipo de tareas. Sus creadores esperan empezar a venderlo las próximas navidades. AXIOS
Investigadores de las universidades de Maryland y Taiwán han estudiado cómo pueden las empresas utilizar la IA generativa para establecer relaciones empáticas con los clientes y crear relaciones duraderas. LINK
El 22 de abril se cumplieron 300 años del nacimiento de Immanuel Kant. Hoy en día, poco se lee al filósofo (cierto que tampoco sus escritos son fáciles), y por eso la asociación Friends of Kant and Könisberg y la agencia Jung von Matt han utilizado la IA para recrear un Kant que habla a los jóvenes desde su perfil de Instragram. IPMARK
Todas las newsletters son buenísimas, pero con esta te has salido. Se va directa a mis favoritos. Qué buen resumen, sintético (de síntesis, no de artificial :D) y bien masticadito. Me será muy útil en el aula, Fernando. Gracias por tu trabajo a lo largo de la semana para poder darnos este "chute" de información
Cómo me gusta leerte los domingos...