Computer vision: la revolución "invisible" que desataron las redes neuronales.
La visión computerizada ya no está de moda. Y está en todas partes.
Visitábamos a nuestras hijas en Londres antes de Navidad, y entramos a comprar en el Amazon Fresh de Islington. Yo llevaba años mostrando a mis alumnos del IE el vídeo de presentación de lo que en su día denominaron Amazon Go. Parecía magia entonces, y sigue pareciéndolo hoy. Entrar en la tienda con un móvil en grupo de cinco, que cada cual cogiera productos de diferentes lineales, y salir volviendo a escanear el móvil, con la compra y sin haber pasado por un cajero. El recibo me llegó al poco y se había equivocado en un producto (diferencia de precio mínima). Pero nos dejó pensando. Amazon denomina a esta tecnología Just Walk Out, y combinan cámaras en el techo con reconocimiento de imágenes y movimiento con otro tipo de sensores (para pesar los productos en las estanterías, por ejemplo). Lo explican en este vídeo, y os lo recomiendo.
La visión por ordenador (Computer Vision o CV) es una de esas aplicaciones tecnológicas de fondo, que se coló sigilosamente en nuestras vidas mientras nos deslumbraba el brillo de las pantallas móviles. Una revolución exponencial que las redes neuronales - tanto tiempo vilipendiadas por la comunidad científica-, facilitaron en la década de los 2010s.
La CV ha vuelto recientemente a la palestra debido al enfoque multimodal de los LLMs. GPT-4 no solo entiende el lenguaje si no que también reconoce las imágenes que le mostramos. El famoso vídeo de introducción de Google Gemini ponía énfasis, precisamente, en esa “comprensión visual”. Meta ha desarrollado SAM (Segmented Anything Model), una tecnología para identificar imágenes y que cada objeto dentro de una imagen se pueda tratar de manera individual, eliminándolo o separándolo del conjunto (en caso de editar imágenes) o identificarlo (en los dispositivos de visión AR y VR). SAM se distribuye como open source, y los investigadores de Meta dicen que podría utilizarse en el futuro para una comprensión multimodal general del mundo. Curiosamente, Yann Lecun, Chief Scientist en Meta y uno de los considerados padrinos de las redes neuronales ganó prominencia precisamente en la década de los noventa por su trabajo de investigación en la aplicación de CNNs (Convolutional Neural Networks) al reconocimiento de la escritura manual.
El gran desafío de esta tecnología es la precisión, especialmente con la visión en movimiento. La CV no debe equivocarse al dictaminar si (la imagen de) un plátano es realmente un plátano, o si un peatón está a punto de cruzar la calle, situaciones en las que un humano dudaría raras veces. Los modelos (redes neuronales) de reconocimiento de imágenes o facial que hoy pueblan nuestros móviles como Pedro por su casa, se entrenan con grandes sets de datos (aprendizaje por transferencia): “Esto es un gato, estos cientos de millones de fotos también son gatos, ahora sabes lo que es un gato”.
Y para ir afinando la precisión se pueden usar imágenes sintéticas. La palabra “generativa” viene de las GANs (Generative Adversarial Network). Un generador crea una imagen de un gato, y un discriminador decide si es o no un gato. En caso afirmativo se incorpora a una base de datos que nutre el entrenamiento. Hay veces que no hay imágenes suficientes para entrenar un modelo o son difíciles de obtener, por ejemplo, para detectar tumores cerebrales. Y los datos sintéticos buscan solucionar este problema.
Usos de la CV en superficies comerciales.
CV se puede utilizar en multitud de contextos: en superficies comerciales, seguridad, conducción autónoma, smart cities, procesos de fabricación, … Levatas utiliza robots, drones o cámaras fijas para automatizar inspecciones visuales en procesos industriales. Pero si nos centramos el ámbito phygital, y en la experiencia de cliente en centros físicos, puede ocurrir que entremos en una cafetería y sin darnos cuenta, esté sucediendo algo como esto:
La gran aportación en este contexto está en la mejora de la experiencia de cliente, acostumbrados como estamos a procesos cada vez más fluidos en el mundo online. Y Amazon Fresh es un claro exponente.
Pero la CV también le facilita al retailer una información muy valiosa, creando mapas de calor, analizando el movimiento de los clientes dentro del establecimiento, los tiempos de permanencia en cada sección, pudiendo incluso entender emociones (fastidio, cansancio, satisfacción, curiosidad, etc). Pudiendo en tiempo real detectar, por ejemplo, un problema de seguridad en la tienda. O transformando la información en KPIs que informen decisiones estratégicas: ¿cuál es el tiempo medio de permanencia? ¿cuáles son los pasillos más usados? ¿cómo circula un determinado tipo de cliente?
En la gestión de inventarios, la CV optimiza la logística, el almacenaje y la reposición: supervisa las existencias, detecta artículos agotados o escasos, controla la fecha de caducidad de productos perecederos, detecta productos defectuosos, dañados o falsificados facilita la localización precisa de cada ítem. The Home Depot ha desarrollado una aplicación que utiliza ML y CV para que los empleados sepan cuáles son los productos más demandados, que nunca queden vacías las estanterías, y puedan localizar cualquier producto incluso en los lugares más remotos.
Más aplicaciones en ámbitos digitales.
L’Oreal ModiFace utiliza la cámara del móvil para probar productos en la cara, la piel o el cabello. También proporciona recomendaciones personalizadas. Algo similar hace Sephora Virtual Artist que permite probar maquillajes con la cámara del móvil.
Otra categoría es la búsqueda por imágenes. ASOS Style Match facilita la búsqueda visual en el catálogo de productos de ASOS a partir de una foto subida en la app. Muse de Mastercard también realiza búsquedas y recomendaciones, teniendo en cuenta las preferencias o estilo del cliente. Veremos más aplicaciones que conecten información visual y catálogo de productos.
En moda, BODs permite a los compradores de marcas de lujo visualizar cómo les sentará una prenda, a través de una representación digital de su cuerpo generada a partir de CV. Si te vas a gastar 1.500 € en un jersey, es buena idea probarlo antes.
¿Cuánto tiempo se ve el logo de nuestra empresa en una retransmisión? Víctor Gil ha desarrollado un modelo a partir de CV que calcula el tiempo de exposición de una imagen en un vídeo. Un servicio similar al que presta la empresa Blinkfire.
Una mirada al futuro.
“The future is already here, it's just not evenly distributed.”
— fiction author William Gibson
La CV ya ayuda en el diagnóstico médico por imagen, a partir del análisis de radiografías, resonancias o tomografías computarizadas. Y en operaciones con robots quirúrgicos. Los coches autónomos la usan para circular y reconocer su entorno -y Waymo ya saca pecho de que son más seguros que las personas-. La vision computerizada permite controlar la salud de cultivos, detectar plagas o mejorar el rendimiento con granjas verticales. Y en banca, se puede contar dinero, detectar billetes falsos. En las fábricas se controla la calidad y defectos en los productos. En las ciudades, se gestiona el tráfico (sí, incluyendo poner multas con radares de tramo y acceso a los centros urbanos con una precisión absoluta en la lectura de matrículas).
Un par de empresas que basan su propuesta de valor en CV: .lumen es una startup rumana que ha desarrollado un dispositivo para ciegos o personas con deficiencia visual basado en CV. El aparato guía al usuario mediante vibraciones, y aprende de sus movimientos. Perif.ai es una empresa española dedicada a peritajes, evaluación de daños en vehículos a través de reconocimiento de las imágenes con IA.
Existen muchos retos a futuro. La mejora de la precisión, especialmente en imágenes en movimiento, la integración de estas tecnologías en procesos ya existentes. Y por supuesto, es de esperar que la susceptibilidad en temas de privacidad de datos y vigilancia siga en aumento. Y que lleguemos a ver a gente vistiendo el jersey invisible que ha desarrollado la Universidad de Maryland. Recordemos que la UE prohibirá con su ley IA la vigilancia masiva (con excepciones puntuales) y la detección de emociones en puestos de trabajo y centros educativos. Pero como siempre, bien usada, la CV es una tecnología que mejora nuestras vidas y merece mayor reconocimiento. Brindemos por ello.
El próximo domingo, vuelvo a tu buzón.
Fernando.
Episodio n9 de Rebel Intel: The podcast, una colaboración entre Business+ y Good Rebels para dotar a este newsletter de versión sonora. En él, Isabel Benítez y servidor profundizamos en el impacto de la IA en la fuerza laboral.
Enlaces de interés para el profesional MCX.
Lecturas seleccionadas de la semana:
Un estudio de BCG entre más de 1400 ejecutivos analiza el grado de adopción de la IA. Los ejecutivos se dividen en dos categorías: ganadores y observadores. Los ganadores creen que las oportunidades de crecimiento y mejora de la productividad que ofrece la IA se pueden conseguir ya, y han puesto en marcha estrategias para lograrlo. Los observadores (¡el 90%!) creen que el hype que rodea la IA tiene que bajar, es pronto aún para adoptarla, o se embarcan en pequeños proyectos piloto. BCG cree que la brecha que surja entre ambas categorías puede ser importante. BCG
En este vídeo, Fernando de la Rosa, con el que estuve la semana pasada en la escuela de marketing y ventas de Orange hablando sobre IA (moda o tendencia) se ha marcado un vídeo explicando un listado de prompts para ChatGPT para profesionales de marketing que ha elaborado Iñaki Gorostiza. Y también se ha currado la primera parte del enfoque de nuestro debate (spoiler: la IA es moda). PROMPTS, MODA
Los planes de Apple para meter IA generativa en el iPhone. 17 adquisiciones de startups IA en 6 años, más que ninguno de sus rivales Big Tech. Y con Samsung apretando el paso con el S24. FINANCIAL TIMES
Gift Mode es una aplicación de Etsy basada en una combinación de machine learning, selección humana y GPT-4 que sugiere ideas de regalo personalizadas en función de quién va a comprar, la ocasión y los intereses del destinatario. ETSY
Lumiere es la (rompedora) propuesta text-to-video de Google. Solo es necesario introducir texto en lenguaje natural o una imagen, y Lumiere crea un vídeo HD a partir de estos. Además, incluye funciones adicionales como inpainting (inserta objetos específicos en el vídeo), Cinemagraph (añade movimiento a partes concretas de una escena) y generación estilizada (toma como referencia el estilo de una imagen y genera vídeos a partir de éste). Eso sí, aún tendremos que esperar para probarlo. LUMIERE, VENTURE BEAT
Kin.art es una plataforma creada para los artistas que no quieren que sus obras sean empleadas para "alimentar" a la IA Generativa. Es gratuita y permite subir portfolios completos. VENTURE BEAT
Google comienza a integrar Gemini en Google Ads, para campañas en EEUU y RU. Crear anuncios de búsqueda, generados a partir del contenido y las imágenes de un sitio web. SEARCH ENGINE JOURNAL, GOOGLE
El principal abogado de Adobe habla sobre el futuro de los derechos de autor y la IA, por qué fracasó la adquisición de Figma y por qué es optimista respecto a que la IA no dejará sin trabajo a los creativos. THE VERGE
Una mesa redonda (vídeo) en el WEF sobre modelos generativos, con Yann LeCun, Nicholas Thompson, Kai-Fu Lee, Daphne Koller, Andrew Ng, Aidan Gomez. WEF
Un experimento de Content Marketing Institute: un equipo de marketing humano y otro potenciado con IA Generativa (Chat GPT, Bard y Claude) elaboran una propuesta de campaña a partir del mismo brief. No se trata de ver quién gana y quién pierde, sino de analizar las diferencias en el proceso creativo, los puntos fuertes de cada opción y cómo pueden complementarse unos y otros. LINK
Varios ejemplos de uso de IA generativa por parte de retailers. MODERN RETAIL
El “Trust Barometer” de este año de Edelman está marcado por la percepción que la gente tiene de innovaciones como la IA. The jury is still out. EDELMAN
Encuesta a expertos: cómo usan hoy la IA generativa y qué se puede esperar en 2024. LINK
Tres ejemplos de cómo utilizar Chat GPT para analizar audiencias y crear buyer personas. LINK
Elvis Evolution llegará a Londres en noviembre de este año. La IA, la Realidad Virtual y la proyección holográfica crearán una experiencia inmersiva para devolver al rey a los escenarios. A raíz de este evento, una reflexión sobre cómo la IA está transformando la producción y el consumo de música. THE CONVERSATION
Por fin llegas a mi terreno... :-) Muy currado el post. Efectivamente, hay muchas aplicaciones fascinantes de CV en el mundo de la cultura y el entretenimiento (y la comunicación) pero las aplicaciones reales en problemas serios no son tantas aún. Bien por falta de precisión y robustez, y por falta de generalidad. ¿Tiene más sentido intentar crear un algoritmo entrenado con millones de imágenes que funcione en todos los escenarios, o deberíamos ir a sistemas reentrenables y adaptables que se puedan optimizar para cada caso concreto? La segunda opción funcionaría mejor pero es más cara y conlleva mucho trabajo tecnológico fuera de la propia IA...
Y como curiosidad, el ejemplo con el que empiezas el artículo, el Just Walk Out de Amazon es el clásico ejemplo de 'over-engineering'. Aparte de a Amazon, para tener acceso - también - a tus preferencias de compra físicas, ¿Realmente es un problema tan grande pasar por caja? La solución es demasiado complicada (muy cool, eso sí) para una necesidad no sentida. Un abrazo.