Los 5 mejores modelos de IA (LLM) de Open Source en 2024. ¿Quieres conocerlos?
Si estás leyendo este artículo es porque estás interesado en la IA Generativa, como sabes la IA está de moda, esta circunstancia ayuda a potenciar la innovación, pero también a generar algo de ruído que nos impide separar el grano de la paja.
Desde que OpenAI arrancase la carrera para el gran público de este tipo de tecnología una serie de competidores se han lanzado a competir para conseguir el trono de la Inteligencia más usada a nivel general o bien a nivel de nicho. Afortunadamente los contendientes no han optado sólo por la típica solución propietaria, algunos de ellos se han abierto a apostar por la filosofía del software abierto como el acelerante necesario para poder competir con la empresa de Sam Altman, que es todo, menos “open” 😀.
Os enumero a continuación los modelos Open Source más populares a día de hoy:
- LLaMA 2: Meta entró por la puerta grande con su modelo LLaMA, especialmente porque liberó su código y marcó con ello la diferencia. Su versión actual es muy potente y Zuckerberg ya ha anunciado que muy pronto liberará su tercera versión. La comunidad lo ha recibido con los brazos abiertos realizando decenas de desarrollos que lo emplean a fondo.
- BLOOM: Con la colaboración de voluntarios de todo el planeta estamos ante un modelo “autoregresivo” de lenguaje generativo entrenado para completar frases de texto en base a un entrenamiento basado en un inmenso set de datos recopilados de internet. Dispone de más 176.000 millones de parámetros, es uno de los modelos más potentes. Si quieres probarlo de forma sencilla en Hugging Face puedes acceder a él.
- BERT: Está basado en una arquitectura desarrollada por investigadores de Google en 2017 en el artículo “Attention is All You Need”. Google lo liberó en 2018 como un modelo de lenguaje generativo de código abierto. Existen miles de modelos entrenados por la comunidad y adaptados a usos específicos como análisis de sentimientos, de diagnósticos médicos, etc.
- Falcon 180B: Lanzado por el Technology Innovation Institute de Emiratos Árabes Unidos en septiembre de 2023 es ampliamente utilizado por la comunidad de Hugging Face. Está entrenado con 180.000 millones de parámetros y 3500 millones de tokens por lo que supera a LLaMA 2 y a GPT-3.5. Es gratuito para uso comercial o de investigación, pero para ejecutarlo necesitas mucha potencia a nivel de servidores.
- OPT-175B: OPT comprende una serie de transformadores preentrenados solo para decodificadores que van desde 125M hasta 175B de parámetros. OPT-175B, uno de los modelos de lenguaje generativo de código abierto más avanzados del mercado, es el hermano más potente, con un rendimiento similar al de GPT-3. Tanto los modelos preentrenados como el código fuente están disponibles para el público. Su licencia es “no comercial”, así que puedes usarlo solo para investigación.
Se me queda en el tintero hablar de XGen-7B, GPT-NeoX y Vicuna 13-B entre otros, pero eso ya lo dejamos para otro artículo.
Os animo a buscar información sobre los mismos y a probarlos, es más sencillo de lo que parece, aunque vais a necesitar un equipo potente para ejecutarlos.