blank
27
Dic

Descubriendo Gemini, la nueva IA Multimodal de Google

La Inteligencia artifical,ha sido el tema estrella de este 2023 en tecnología e innovación y desde el blog de OpenExpo Europe hemos querido prestarle una especial atención. Esta atención va a continuar, sin dudas, en nuestros próximos artículos y entradas, ya que 2024 será un año apasionante en este campo. Además la IA ha pasado a convertirse en un transversal que impregna y llena todos los campos de la tecnología que venian siendo trent en los últimos años como ciberseguridad, cloud, desarrollo, conectividad, etc.

Aunque en el Blog tendremos el foco centrado en las IA’s Open Source y, muy especialmente, en las desarrolladas en Europa, no vamos a olvidar los importantes lanzamientos hechos por los grandes actores tecnológicos como el caso que nos ocupa hoy : Gemini la nueva IA Multimodal de Google.

Un modelo de IA no es un chatbot.

Antes de entrar a desgranar Gemini, es importante distinguir entre un chatbot, como por ejemplo Bard, y un modelo de IA como Gemini. Mientras que Bard, muy parecio a ChatGPT, funciona como un chatbot interactivo impulsado por un modelo de IA (“el front”) , Gemini es el modelo subyacente, la infraestructura avanzada que potencia estas interfaces conversacionales (“el back”). Gemini, que destaca por sus capacidades multimodales y su manera de afrontar el procesamiento complejo de datos, es la base técnica sobre la cual se construyen aplicaciones como Bard.

Gemini, la nueva IA Multimodal de Google

Las 3 “versiones” de Gemini: Ultra, Pro y Nano

– Gemini Ultra es el modelo más potente de Gemini, Ha sido diseñado específicamente para abordar tareas complejas y con múltiples facetas. Destaca especialmente en el entendimiento profundo y la solución de problemas avanzados, superando a otros modelos en métricas académicas e incluso a los expertos humanos en comprensión masiva del lenguaje multitarea, conocido como MMLU. A más potencia, también mayor consumo de recursos.

– Gemini Pro es la “versión intermedia” y está destinada a una amplia gama de aplicaciones, Gemini Pro equilibra eficazmente el rendimiento con la eficiencia de recursos que son sensiblemente menores que los que requiere su “hermano mayor” Pro. Es la versión que actualmente impulsa a Bard, ofreciendo capacidades avanzadas de razonamiento y comprensión.

– Gemini Nano es la “versión móvil” y su modelo se centra en la eficiencia con el foco puestoen modelos de smartphone como el Pixel 8 Pro. Su diseño permite un procesamiento rápido y eficaz, ideal para aplicaciones en dispositivos con recursos más limitados.

En su lanzamiento Google ha enfatizado la importancia del desarrollo responsable de la IA con el bagaje del aprendizaje adquirido en la puesta al servicio del gran público en estos últimos meses.

A Gemini se le ha sometido a evaluaciones exhaustivas para garantizar su seguridad, incluyendo pruebas para mitigar sesgos y toxicidad. Esta atención a la responsabilidad y ética en el desarrollo de IA quiere estar en concordancia con regulaciones como la europea, que pasa por se la primera “ley de regulación de IA” y que no estaba promulgada durante el desarrollo de Gemini, aunque se iban conociendo sus detalles principales.

Gemini, la nueva IA Multimodal de Google

La Potencia de Gemini en Perspectiva

Las declaraciones de Google sobre Gemini Ultra son reveladoras: «Gemini Ultra supera a los modelos más avanzados en 30 de las 32 métricas académicas de uso general en investigación y desarrollo de modelos lingüísticos. Con una puntuación del 90,04% en la comprensión masiva del lenguaje multitarea MMLU (generación de texto, imagen y vídeo), Gemini Ultra incluso supera a los expertos humanos». Esta forma de analizar, conocida por “métrica” tiene en cuenta 57 materias, desde matemáticas hasta ética. Aquí Gemini ha destacando por una capacidad sorprendente para comprender y analizar una amplia gama de conocimientos y resolver problemas complejos.

Gemini, es evidente, que con sus versiones Ultra, Pro y Nano, ha venido a competir directamente con OpenAI y su chatGPT, que ahora mismo dominan el mercado. Esta versión de lanzamiento parece que iguala o supera, prácticamente, los modelos avanzados de sus competidores, aunque habrá que ir esperando sus “releases de asentamiento” para ver que cuotas consigue, sobre todo en la carrera de Bard con chatGPT.

Para probar Gemini, sólo tenemos que usar Bard, pues en este chatbot va sustituyendo poco a poco (según versiones) al anterior modelo PaLM2.

Esta eclosión de la IA generativa y su permeo en todas las demás disciplinas, que desarrollábamos al principio de este artículo, hará que en la edición de Open Expo Europe del 2024 la IA pase, de ser uno de los verticales del encuentro, a una presencia transversal, como le corresponde.