¿Será o3 un nuevo GPT2? Y otras preguntas/predicciones para 2025.

La llegada del modelo de razonmiento o3 de OpenAI da un nuevo giro al caleidoscopio por el que estamos revisando las predicciones IA del próximo año.

dic 22, 2024

Si prefieres escuchar el artículo, este es el podcast que hemos creado con NotebookLM, de Google.

0:00

-17:44

Antes que nada: os hemos escuchado :-)
El próximo domingo 29 dic, Rebel Intel descansa y volverá el 5 de enero.
And now, the news…

Habíamos elegido “agentes IA” como palabra clave para nuestras predicciones de 2025, pero el anuncio final de los 12 días de OpenAI, hace algo más de 24 horas tiene a la comunidad IA muy revuelta. Su nuevo modelo de razonamiento o3 (poco después de lanzar o1 en septiembre) parece haber batido en pruebas “semi-privadas” el modelo ARC-AGI que evalúa la capacidad de la IA para enfrentarse a nuevas tareas que no lleva aprendidas desde su set de datos.

En palabras de Francois Chollet, creador del ARC-AGI:

OpenAI ha anunciado hoy o3, su modelo de razonamiento de nueva generación. Hemos trabajado con OpenAI para probarlo en ARC-AGI, y creemos que representa un avance significativo […] Su puntuación en la evaluación semiprivada es del 75,7% en modo de bajo coste (20 dólares por tarea de cálculo) y del 87,5% en modo de alto coste (miles de dólares por tarea). Aunque esta modalidad sea muy cara, no se trata solo de fuerza bruta: estas capacidades son un nuevo territorio y exigen atención científica muy seria.

El salto no es incremental, parece otra cosa. Algo que recuerda al momento mítico en febrero 2019, en que OpenAI da a conocer GPT-2 a la comunidad científica, demostrando que el modelo transformer postulado dos años antes por ingenieros de Google funciona si se entrena con datos masivos. Del post de ARC-AGI:

Se trata de un sorprendente y relevante incremento en las capacidades de IA, que muestra una capacidad de adaptación a las tareas nunca vista antes en los modelos de la familia GPT. Para contextualizar, ARC-AGI-1 tardó 4 años en pasar del 0% con GPT-3 en 2020 al 5% en 2024 con GPT-4o. Toda la intuición sobre las capacidades de IA tendrá que actualizarse para o3.

o Series Performance — Rendimiento de OpenAI o3, frente a modelos previos.

o3 llega justo la semana después de que Google haya desvelado Gemini 2.0 Flash Thinking Experimental. Y otras empresas desarrollan sus propios modelos de SR. En noviembre, DeepSeek (china) lanzó DeepSeek-R1, mientras que el equipo Qwen de Alibaba dio a conocer QwQ, lo que denominaron la primera alternativa «abierta» a o1.

En su anuncio del viernes, OpenAI también ha comunicado que o3 obtuvo un 96,7% en el American Invitational Mathematics Exam del 2024, fallando una sola pregunta. Un 87,7% en el GPQA Diamond, que contiene preguntas de biología, física y química de nivel universitario. Y en el examen Frontier Math de EpochAI, o3 resolvió el 25,2% de los problemas, cuando ningún otro modelo había superado el 2%.

Pero ¿es AGI o no es AGI?

Por sus siglas en inglés, AGI significa “Artificial General Intelligence”, una IA capaz de enfrentarse a todos los problemas y obtener mejores resultados que ningún humano. Lograr esa AGI es el santo grial de empresas como OpenAI (y muchas otras). Si nos remitimos de nuevo a Chollet:

¿Es o3 AGI? Aunque el nuevo modelo es muy impresionante y representa un gran hito en el camino hacia la AGI, no creo que esto sea AGI: todavía hay un buen número de tareas ARC-AGI-1 muy fáciles que o3 no puede resolver, y tenemos indicios tempranos de que ARC-AGI-2 seguirá siendo extremadamente difícil para o3. Esto demuestra que todavía es posible crear sistemas de evaluación fáciles para los humanos, pero imposibles para la IA, sin necesidad de conocimientos especializados. Tendremos AGI cuando la creación de este tipo de pruebas sea ya imposible.

Aunque estos modelos de razonamiento se basan en LLMs (los grandes modelos de lenguaje fundacionales) representan un paradigma algo diferente, ya que utilizan lo que OpenAI denomina «cadena privada de pensamiento», en la que el modelo hace una pausa para examinar su diálogo interno y planificar con antelación antes de responder, algo que podría denominarse «razonamiento simulado» (SR en inglés). Lo interesante, es que esta forma de pensamiento se puede escalar incrementando el tiempo de ejecución, en lugar de hacerlo con el volumen de datos para el entrenamiento de los modelos (algo que parece tener rendimientos decrecientes últimamente).

Así que aquí llega una primera predicción, para 2025: las técnicas denominadas de “inference-time” en machine-learning van a dar mucho que hablar. Se trata de la predicción del propio Chollet, que auguraba hace unos días que el ARC-AGI sería resuelto en 2025 (imaginamos que algo sabía, pero se ha terminado desvelando en 2024). Ahora se sabe que ARC-AGI está ya moviendo los palos de la portería y trabajando en el ARC-AGI 2.

OpenAI son unos magos de la demo y la exageración (véanse los 10 meses de Sora/no Sora). Pero su batalla ahora es la captura de fondos. Y anuncios como el de ayer, aunque sea cuestionado por muchos (especialmente los sospechosos habituales), les abrirá aún más carteras. Me recuerda a la capacidad que Musk tiene para “doblar la realidad” y cómo convenció de la viabilidad de Tesla a inversores hace años: un castillo de naipes que casi se rompe, pero que no se rompió.

Por otro lado, o3 no es AGI, pero que las cadenas privadas de pensamiento hayan avanzado tanto en tan poco tiempo en ciertos benchmarks apunta a una clara mejora en las capacidades generales de la IA (igual que ocurrió con el modelo transformer). Y puede incitar a creer (a mí me pasa) que llegaremos antes a una AGI de lo que yo podría suponer hace 1 año cuando las limitaciones de los LLMs empezaban a quedar muy claras. No sé si será un año, 5 ó 10, pero pinta a que llega.

En resumen, los hitos en el avance de las capacidades de la IA (saltos cuánticos) parecen estar acelerándose. Y hay convergencia, además de aceleración, unos se apoyan en los otros. Y eso apunta a AGI. Otro día explicamos, de nuevo, por qué aunque la AGI dé miedo, puede ser un gran logro para el progreso social.

Pero más allá del AGItador debate, es hora de repasar algunas de las predicciones sobre la IA para 2025 que se han ido publicando en las últimas semanas.

2025 será el año de la IA “agéntica” (ustedes disculpen el palabro).

Parece que los “agentes basados en IA” serán los grandes protagonistas del 2025. ¿Qué señales apuntan a esto? En primer lugar, no hay un solo líder de la industria IA que no muestre su convencimiento al respecto, con Marc Benioff como destacado abanderado de la IA agéntica. Las grandes tecnológicas (Google, Amazon, Microsoft, Open AI) trabajan en ecosistemas conectados que se integran y participan en todos los puntos de nuestra vida digital, donde los agentes son la parte visible de los cimientos apuntalados sobre la IA.

Hasta ahora habíamos escuchado la promesa de que los agentes IA harán tareas por nosotros, ya sean actividades personales (“Manda un Bizum a mi sobrina”, “Reserva para seis personas en el italiano”) o en el trabajo. Pero no acabamos de ver que estas acciones sucedan verdaderamente. 2025 ¿será? ¿puede ser? el año en que esto cambie, el “momento ChatGPT” de los agentes.

Aunque no ocurra de un día para otro, ni les cederemos a ciegas tareas de las que nos ocupamos personalmente. Gradualmente incorporaremos agentes que trabajen para nosotros, que nos hagan más productivos y eficientes en el trabajo, que se ganen nuestra confianza y que de verdad empiecen a tener presencia en nuestros hábitos de consumo. Como dice Tom Coshow, analista senior de Gartner, con los agentes se verán las ganancias de productividad que mucha gente no terminaba de percibir con la IA generativa.

Gartner encabeza su Top Strategic Technology Trends de 2025 con la IA agéntica: Gartner predice que en 2028, los agentes tomarán el 15% de las decisiones en el día a día de las oficinas. Todo ello bajo el auspicio de políticas de gobernanza (la segunda tendencia) que garanticen un funcionamiento ético y responsable. Y vigilando (tercera tendencia) los riesgos asociados a la desinformación, con sistemas que monitoricen contenidos internos y externos y alerten sobre deepfakes, estafas, etc.

En Atlassian, desarrolladores de software conocidos principalmente por Jira, también tienen claro que 2025 será el año de los agentes IA: transformarán las dinámicas del trabajo en equipo a través de mayor colaboración, trabajo asíncrono, integración en tareas específicas... Los agentes también serán una fuente de creación de valor, por ejemplo, vertiendo contenidos de vídeo en metadatos y texto, que se incorporarán a los flujos de trabajo como valiosa fuente de documentación. Este es un recopilatorio potente (AI Agent market map) de empresas trabajando para crear Agentes IA.

Hace unos meses publicamos desde el Foro IA el informe sobre la evolución de asistentes a agentes IA, con un montón de detalles y ejemplos:

De asistentes virtuales a agentes IA: la intermediación sintética que lo cambiará todo.

Fernando Polo

June 23, 2024

Lee la historia completa

Una IA cada vez más presente y “consciente”.

En una entrevista con Reid Hoffman en el evento Masters of Scale, Mustafa Suleyman califica la IA como “una nueva especie digital”. El CEO de Microsoft AI cree que a partir de 2025 veremos sustanciales avances en la IA que cambiarán las reglas del juego. Para espanto de los catastrofistas (o quién sabe si deleite), los sistemas IA pronto serán capaces de detectar y corregir sus propias debilidades y fallos. También aumentará su inteligencia emocional (el tono, estilo y capacidad de interacción), e incorporarán memoria permanente, lo que eliminará la frustración generada por el olvido de conversaciones pasadas y creará relaciones más personalizadas. Llegarán modelos más potentes, pero también otros más ligeros y eficientes en tareas específicas. Y la IA verá lo que nosotros veamos, sea en el mundo real o en las pantallas de ordenadores y móviles, con lo que aumentarán las posibilidades de interacción.

Porque si los LLMs se alimentan básicamente de texto y código, la IA multimodal absorbe información visual para impulsar motores de razonamiento que comprenden y explican el mundo físico. Cerramos el año con varias presentaciones importantes de productos que irán llegándonos a lo largo del 2025: Project Astra de Google utiliza la cámara del móvil para rastrear y capturar el entorno. La memoria le permite recordar lo que ha visto en los últimos 10 minutos y contestar preguntas. Apple Intelligence, Copilot Vision, ChatGPT Advanced Voice Mode, van en la misma dirección: IA que ve (y entiende) lo mismo que nosotros.

Una IA cada vez más conectada, incorporándose en nuestro día a día en nuevos dispositivos y servicios. Navegadores inteligentes que nos asisten o completan tareas en nuestro lugar, como Dia o Surf. Y en enero llegará el CES de Las Vegas, donde la IA, por supuesto, será la gran protagonista. Veremos coches más inteligentes y comunicados, dispositivos IA para belleza y wellness, robots avanzados para el hogar, PCs con IA, dispositivos de Realidad Extendida…

Tendencias en la experiencia de cliente.

Statista destaca en Must-Watch Consumer Trends 2025 el auge de las compras asistidas con IA, que gana protagonismo en todo el customer journey, desde el descubrimiento hasta la postventa. Encontrar las mejores ofertas, recibir recomendaciones personalizadas, maximizar el valor de los presupuestos, serán demandas al alza entre los consumidores en 2025. Eso sí: Statista recomienda no olvidar el soporte y la presencia humanas, puesto que la mayoría de los consumidores aún prefieren la interacción humana cuando se trata de interactuar con el servicio al cliente.
The Year of Impact, de Dentsu, señala la incorporación progresiva de la IA en nuestras vidas, integrándose en multitud de servicios, y no solo para entusiastas de la tecnología, sino para todo tipo de públicos. Llegarán killer apps, más modelos ligeros que funcionen en dispositivos portátiles y wearables, modelos multimodales que permitan interacciones ricas e intuitivas. La IA permitirá a las marcas crear micromomentos adaptados a situaciones y preferencias individuales.
En Guide to Next, Publicis Sapient señala el papel transformador que la IA tendrá en la CX. La IA generativa hace posible la interacción en tiempo real, comprendiendo sus intenciones y adaptando el proceso de compra sobre la marcha. Los consumidores pasan de pasivos receptores de suposiciones predictivas a activos co-creadores de experiencias e compra dinámicas y personalizadas. Marcas como Walmart, Lowe's o Home Depot ya aplican este enfoque, y serán muchas más las que se sumen en 2025.
Las Predicciones 2025 en B2C y CX de Forrester apuntan a una etapa más madura en la adopción de la IA, pasando de la experimentación inicial a implementaciones estratégicas centradas en la convergencia de tecnologías y la unificación de los datos. Es posible que disminuya la fidelidad a la marca, principalmente por consumidores más sensibles al precio, al tiempo que aumentan los programas de fidelización. Esta paradoja se explica porque los consumidores son menos leales a una marca y más exigentes a la hora de invertir su fidelidad. De aquí la importancia de ofrecer un valor tangible a los clientes, que aporte beneficios muy claros. Forrester también augura la transformación de las agencias creativas, que integrarán ideación/conceptualización con producción/ejecución.
CX Trends 2025 de Zendesk analiza el impacto de la IA en la CX. Empresas como Lush o NEXT están son trendsetters y marcan claras diferencias con otras empresas más tradicionales en su enfoque. El informe identifica cinco tendencias clave de CX para 2025: el aumento de los copilotos IA que dan apoyo a los trabajadores; agentes IA que interactúan con los clientes; la importancia de compatibilizar los sistemas de atención con los asistentes personales (Siri, Alexa, etc); el potencial transformador de la IA de voz; y el papel crucial de la personalización para impulsar la lealtad del cliente.
Predicciones para el sector de investigación de mercados de Qualtrics. Tres de cada cuatro de los más de 3.000 expertos consultados cree que antes de tres años la mayoría de las investigaciones se harán con usuarios sintéticos. Esto permite obtener insights más rápidos y precisos, manejar más datos y diversificar las muestras. La IA ya es un miembro más de los equipos de investigación, participando en el 89% de los procesos, y con un 83% de empresas que aumentará la inversión el año próximo. Respecto a la fiabilidad de los resultados, más del 70% de los encuestados cree que la IA predecirá las tendencias del mercado con mayor precisión que los humanos antes de tres años.
The Future of Entertainment, de Omnicom, explora (para 2025 y más allá) el impacto transformador de la IA en el futuro del entretenimiento, una industria de 2 billones (americanos) de dólares. Esta transformación se despliega a través de cuatro “fuerzas D”: Democratización de la creación de contenidos; Difusión a través de múltiples canales; “Dimensionalización” de las experiencias de entretenimiento mediante tecnologías inmersivas; y Desmantelamiento de las actuales estructuras de poder geopolíticas y culturales.

¿Y en la publicidad digital?

El 2025 Industry Pulse Report, de IAS y YouGov, ha sondeado a casi 300 profesionales de la industria publicitaria sobre perspectivas y oportunidades para 2025. Destacan el social shopping y el marketing de influencers como principales propulsores del consumo de redes sociales. También ven oportunidades para la innovación en medios emergentes, como el gaming o las RMNs (Retail Media Networks, plataformas publicitarias que hacen uso de los datos recopilados en la red para conectar marcas y consumidores). Estas son sus tres prioridades para 2025: 1) (49%) Garantizar que los anuncios aparezcan en entornos acordes con los valores de la marca y su público. 2) (44%) Asegurarse de que los anuncios son vistos por personas reales; y 3) (43%) Promover iniciativas responsables para garantizar que la publicidad sea ética, inclusiva y sostenible. Con respecto al papel de la IA, el informe no especifica detalles sobre su potencial innovador, pero sí destaca cómo el deep learning permitirá clasificar los contenidos multimedia y detectar los deepfakes y la desinformación para proteger la integridad de la marca.

Para terminar, un punto de vista con un aderezo algo nerd: predicciones en Hacker News de ingenieros de software para 2025. Las más llamativas: el tráfico web caerá al menos un 10% a consecuencia de las búsquedas IA, los LLMs y los asistentes en los móviles; la inversión en IA tocará fondo, con modelos de 512 MBs para móviles que serán suficientes para la mayoría de la gente; y el uso de la IA en los juegos se expandirá tanto que provocará escasez de tarjetas gráficas de gama alta y aumento de precios.

El próximo domingo, NO llegaremos a tu buzón. Como esta edición nos ha salido un poco extensa, confiamos en que tendréis enlaces de sobra para no aburriros :)

Volvemos el domingo, 5 de enero. Felices Fiestas y Guten Rutsch!

Fernando y Carlos.

Mirando al 2025 por el caleidoscopio de la IA.

La semana pasada me hicieron una entrevista en el podcast de AEDIPE (Spotify, iVoox). Hablé sobre Cultura Rebel, para variar. Coincide que Planeta nos envió hace unos días prueba de la 5ª edición de Lidertarios, ¡diez años después!

Actualidad.

Veo2, la réplica de Google a Sora para crear vídeo ha tenido muchas alabanzas. Permite 2 minutos y mejor resolución, por ahí ya va ganando. Pero además, la calidad de los clips parece bastante más potente. No dejéis de ver los vídeos. LINK, TECH CRUNCH
Pero no acaba ahí todo. Lo más impresionante esta semana son los vídeos y la explicación del proyecto Génesis: un motor de “física generativa” capaz de generar mundos dinámicos en 4D (¿cuatro d?) impulsado por una plataforma de simulación física diseñada para aplicaciones de robótica general e IA. No dejéis de ver los vídeos :-) LINK
Anthropic ha publicado un paper técnico (difícil de entender, yo ni lo intento) sobre ejercicios de alineamiento con sus modelos en los que parece que el LLM esté engañando a los entrenadores para cumplir con los objetivos, y luego ir a su bola. Lo cierto es que es confuso, y los propios autores lo reconocen. El título del paper (faking alignment") ha levantado en sí mismo críticas.
Aunque me encanta Claude y el ceo de Anthropic, la empresa tiene una agenda muy concreta: posicionarse como la empresa de modelos fundacionales que “realmente” se preocupa por la seguridad futura (alineamiento, evitar el escenario “terminator”). Su objetivo (y el de muchos, muchos otros investigadores es loable). Pero a mí, en particular, este paper me huele a cierto clickbait (al menos el titular). Y no soy el único. En cualquiera de los casos, estoy agradecido a todos los que trabajan para construir una IA segura. Pero nunca he comprado del todo que para trabajar en ello (llamémosle activismo) haga falta jugar al alarmismo. PAPER, CRÍTICA
Relacionado con esto, y al tiempo que anunciaba o3, OpenAI también jugaba la batalla del alineamiento con una llamada a investigadores para testear el nuevo modelo y con un nuevo concepto “alineamiento deliberativo”, que propone que los nuevos modelos potentes de razonamiento como o3, ayudarán a crear modelos de lenguaje más seguros. OPENAI
Meta ha añadido a sus gafas RayBan tres nuevas funcionalidades: Live AI (permite conversar con el asistente sobre lo que estamos viendo), traducciones en tiempo real (de inglés a español, francés e italiano, se pueden escuchar o leer en el móvil) y reconocimiento de canciones con Shazam. Funciones intuitivas y prácticas para reforzar la utilidad de las gafas. META

Reflexiones.

Ilya Sutskever habló durante la conferencia NeurIPS -uno de los eventos mundiales más importantes sobre IA y machine learning- del fin de la era del pre-entrenamiento de la IA. Los datos son para Ilya el "combustible fósil" que ha alimentado hasta ahora la IA, un recurso generado en el pasado reciente, pero al borde ya del agotamiento. No es sostenible seguir escalando los modelos con datos. Para que la IA siga progresando, Ilya apuntó vías alternativas: agentes con capacidad de razonamiento, independientes de los datos. Datos sintéticos. Mejorar el tiempo de inferencia, es decir, optimizar los recursos computacionales necesarios para utilizar un modelo ya entrenado, en lugar de los recursos necesarios para entrenarlo. Y buscar inspiración en la biología para encontrar nuevos modelos de escalado. También habló de cómo será la IA del futuro: comprenderá cosas a partir de datos limitados, no se confundirá y adquirirá conciencia de sí misma. YOUTUBE, LINK
Los resúmenes de texto que genera la IA ponen en peligro la supervivencia del hiperenlace. La web, como la hemos conocido hasta ahora, es una construcción colectiva del pensamiento humano, y el link es un modesto pero valioso recurso que conecta ideas y fomenta el conocimiento, la investigación y el pensamiento. La interacción de forma y contenido produce signifcado, algo que Page y Brin entendieron cuando crearon el PageRank. ¿Se perderá todo lo que hemos construido si nos limitamos a leer los resúmenes que nos muestra la IA? LINK
Este vídeo muestra los posibles usos de Project Astra en el mundo real. Un asistente que nos ayuda en todo tipo de situaciones... ¿o en el que delegamos para que tome decisiones en nuestro lugar? YOUTUBE
Una buena reflexión de Antonio Ortiz, sobre si el uso de la IA nos generará sedentarismo intelectual. LINK
Los usuarios más techies en US se han enamorado de Claude. Tiene que ver con la personalidad del LLM, en comparación con la interacción de un ChatGPT más aséptico. Poco a poco, se convierte en un compañero de aventuras y reflexiones varias. ¿Es una moda pasajera o una tendencia a la que llegaremos todos? NYT
A algunas empresas tech, les empieza a gustar la idea de jugar con un mensaje controvertido: Stop Hiring Humans. LINK

MCX.

Omnicom ha comprado Intercom para crear la agencia publicitaria más grande del mundo. Durante la charla que los directivos dieron a inversores para explicar la operación, "Datos" y "Tecnología" se mencionaron una docena de veces cada una, "IA" ocho veces, y "Creatividad"... una vez. Esto da una clara idea de cómo la tecnología, y la IA en particular, están moviendo los cimientos de la industria publicitaria. Sorry, Mad Men. The Ad Revolution Is Here. LINK
Parece que a los consumidores no les hacen demasiada gracia los anuncios generados con IA. Eso dice una investigación de NIQ Research: aunque con estos anuncios sí se establecen asociaciones con las marcas, se perciben como menos auténticos, más confusos y menos memorables. A las marcas que usen IA, NIQ recomienda cuidar al máximo la calidad para evitar el halo negativo de un posible efecto uncanny valley. NIELSEN
Hemos escuchado con frecuencia durante este 2024 la advertencia de que la IA podría interferir en los resultados de las elecciones que se han celebrado a lo largo del año. Sin embargo, un análisis de 78 casos es que la IA se ha usado con propósitos electorales deja tres conclusiones: 1) La IA no se ha utilizado en general para engañar a los votantes, sino para mejorar materiales de campaña, sin ocultar su uso; 2) Para crear desinformación no es necesaria la IA, ya que las falsificaciones políticas no requieren alta precisión técnica; y 3) El problema radica más en la demanda de desinfornación que en la oferta: la mayoría de la gente ve y escucha lo que confirma sus opiniones. LINK
Los usuarios de iPhone y Samsung no están impresionados ni encuentran mucha utilidad en las funcionalidades IA, según un estudio de SellCell. Sin embargo, las capacidades IA sí se tienen en cuenta a la hora de elegir un teléfono nuevo, especialmente para los usuarios de iPhone (47%) El estudio se hizo antes de la integración de ChatGPT en iOS 18.2, hito que tal vez cambie esta percepción. LINK

Herramientas IA.

Google ha presentado Whisk (por ahora solo disponible en EEUU). Es una herramienta que genera imágenes a partir de otras imágenes, en lugar de utilizar descripciones. Google explica que no es tanto un editor de imágenes como una herramienta creativa, útil para explorar ideas y/o captar la esencia de las imágenes subidas. Pero también es relevante porque prescinde de los prompts, en lo que puede ser uno de los primeros ejemplos de una incipiente forma de interactuar con la IA generativa. LINK

Una publicación invitada por

Carlos Corredor

Investigador y comunicador digital con más de 20 años explorando cómo la tecnología transforma negocios y personas. En Rebel Intel analizo el impacto real de la IA en Marketing, Comunicación y CX.

De asistentes virtuales a agentes IA: la intermediación sintética que lo cambiará todo.

Discusión sobre este post

Por supuesto, sigue adelante.