Una IA con más “sentidos”
En este fin de año, los avances recientes en herramientas multimodales están a la orden del día, agregando nuevas o mejoradas maneras de interactuar con las IAs. Desde mejoras en funciones conocidas como la generación de vídeo basada en texto, hasta capacidades avanzadas de análisis de imágenes en tiempo real, las posibilidades se expanden en progresión geométrica. Modelos como Project Astra de Google, el nuevo modo visual de OpenAI y Luma AI Ray 2 han dado un paso al frente en esta transformación, ofreciendo capacidades que podrían cambiar la manera en que interactuamos con la IA y también cómo creamos contenido.
Herramientas que trascienden modalidades
Uno de los puntos más llamativos y que pueden cambiar nuestra “relación” con la Inteligencia Artificial, es la integración de funciones multimodales mejoradas y nuevas. Por ejemplo, Project Astra, que es un proyecto de Google, permite a la IA interactuar de forma más natural con su entorno, tal natural que con esta tecnología los usuarios pueden apuntar la cámara de sus dispositivos para que la IA analice y comprenda lo que está “viendo” en tiempo real, ofreciendo respuestas contextuales sobre los objetos, los textos o incluso el escenario en conjunto que “ve”. Esta función abre un abanico de posibilidades enormes de aplicaciones en campos como la educación, comercio electrónico o el simple hecho de navegar, por no hacer la lista interminable.
Por su parte, OpenAI ha contraatacado rápidamente con un modo visual avanzado en ChatGPT que permite a los usuarios mostrar imágenes o compartir la pantalla para que la IA los “vea” e interprete. Con esta función, ChatGPT no sólo responde preguntas basándose en texto, o voz (que eran los canales habituales) sino que también analiza el contexto visual y ofrece interacción en tiempo real.
Mientras tanto, Luma AI Ray 2 ha dado un paso más, pero esta vez más centrado en la generación del propio vídeo que en la interacción, centrándose en la velocidad y el realismo. Esta herramienta permite generar videos en apenas 10 segundos, utilizando tanto texto como imágenes, que puede “ver” como entrada. Además, aquí destaca su fácil integración con plataformas en la nube, especialmente con AWS, para poder ofrecer una experiencia que sea accesible tanto para usuarios profesionales como amateurs.
Impacto en múltiples frentes
Más allá de lo llamativo y de incrementar los “sentidos” por los que las IAs perciben nuestros prompts, el potencial de estas herramientas no se limita a la generación de contenido artístico o comercial. En el ámbito educativo, por poner un ejemplo, modelos como los de OpenAI ya están siendo utilizados para crear materiales didácticos interactivos que combinan texto, audio, video y análisis de imágenes. No hay duda de que también ésta mejora en la posibilidad de interactuar mediante comandos de voz y cámara, a la vez, democratiza el acceso a estas tecnologías, permitiendo que usuarios sin prácticamente ninguna experiencia técnica creen contenido de alta calidad y obtengan respuestas visuales en tiempo real.
Esta nueva o nuevas formas de interactuar con la IAs y aprovechar las capacidades de los LLMs, también se aplica en situaciones cotidianas, a saber : los usuarios pueden utilizar la cámara para recibir información sobre productos, leer textos en otros idiomas o analizar problemas técnicos mediante una interpretación visual, etc…. Este tipo de capacidades está claro que van a marcar, a finales de este 2024 y principios del 25, un antes y un después en cómo utilizamos la Inteligencia Artificial.
El siempre desafiante futuro
A pesar de lo llamativo y útiles que puedan ser estos avances, las citadas herramientas se enfrentan (como todo lo relacionado con la IA y su eclosión actual) a desafíos regulatorios y éticos. Por ejemplo, las capacidades avanzadas de análisis visual de OpenAI aún no están disponibles en algunos mercados debido a restricciones legales. Por su parte, Google y otras compañías trabajan para implementar diferentes medidas de seguridad que garanticen un uso responsable de estas tecnologías. Pues a cada nueva “funcionalidad” le corresponde un nuevo “peligro”.
No cabe ninguna duda de que el futuro de la IA multimodal es sumamente prometedor. Lo que estamos viendo ahora son versiones beta y casi alpha, pero se espera que las próximas iteraciones y ramas de desarrollo incluyan una integración más profunda entre texto, voz, cámara y vídeo, así como mejoras en la accesibilidad y la personalización, teniendo en cuenta todos estos canales de “input”.
La evolución de la IA multimodal puede estar marcando un nuevo capítulo en la historia de la Inteligencia Artificial.
————————
Photos by Freepik