La importancia de abordar los riesgos de seguridad en la IA y los LLMs
La Inteligencia Artificial, sigue copando gran parte del interés general de todos los ámbitos tecnológicos Se integra hoy en día en diversos sectores como la salud, la banca o la atención al cliente, por citar sólo algunos.
Los LLMs y las vulnerabilidades
En este sentido los grandes modelos de lenguaje o LLMs, por sus siglas en inglés, han cobrado especial relevancia debido a su capacidad para procesar y generar texto de manera coherente y contextualmente adecuada. Sin embargo, esta avanzada funcionalidad también ha abierto la puerta a nuevas vulnerabilidades que pueden ser explotadas por actores malintencionados y de las cuales ya nos hemos ocupado en varias ocasiones en este blog de OpenExpo Europe. Hoy lo vamos a traer a colación tras la lectura del informe del OWASP sobre el TOP10 de riesgos de seguridad en estos LLMs mencionados.

Principales desafíos en la seguridad de los LLMs
Los LLMs, al ser entrenados con cantidades ingentes de datos, pueden heredar sesgos, errores y “sensibilidades” presentes en dichos conjuntos. En otro orden de cosas, su capacidad para generar contenidos puede ser manpulada para producir información engañosa con el claro objetivo de perjudicar. Fenómenos como estos mencionados, a modo de ejemplo, requieren de una atención especial para garantizar que la implementación de LLMs en las finales versiones de modelos de IAS, sea segura y, por ende, ética.
Historia y misión de OWASP
El Open Worldwide Application Security Project (OWASP) es una comunidad global sin ánimo de lucro fundada en 2001. Su objetivo y foco principales son mejorar la seguridad del software; así visto en general. A lo largo de los años, OWASP ha proporcionado recursos gratuitos, como metodologías, documentación y herramientas, para ayudar a desarrolladores y organizaciones a identificar y mitigar riesgos de seguridad en diversos y diferentes ámbitos y aplicaciones. Uno de sus proyectos más populares son sus «OWASP Top 10», a saber, una lista que destaca las diez principales vulnerabilidades de seguridad en distintos ámbitos y que es actualizada periódicamente para reflejar las amenazas emergentes.

OWASP Top 10 para aplicaciones LLM en 2025
En respuesta a las crecientes preocupaciones sobre la seguridad en aplicaciones basadas en LLMs, OWASP ha publicado su lista Top 10 de riesgos para estos, en su versión para 2025. Queremos hacernos eco en este blog de la lista, pues contiene muchos puntos, que si bien en algunos casos son de sentido común, siempre son un buen recordatorio. OWASP nos ofrece además, en cada escalón del top, un ejemplo y unos consejos o líneas para su posible mitigación que aquí ofrecemos a modo de rsumen. Referimos al lector o lectora más interesado al informe citado: aquí.
- Inyección de mensajes (Prompt Injection)
- Descripción: Ocurre cuando un atacante manipula las entradas del usuario para alterar el comportamiento del modelo, llevando al LLM a generar respuestas no deseadas o peligrosas.
- Ejemplo: Un usuario inserta comandos maliciosos en una entrada aparentemente inocua, provocando que el LLM ejecute acciones no autorizadas.
- Mitigación: Implementar validaciones estrictas de las entradas y establecer límites claros en las respuestas generadas por el modelo.
- Divulgación de información confidencial
- Descripción: Los LLMs pueden, inadvertidamente, revelar datos sensibles presentes en su conjunto de entrenamiento o en interacciones anteriores.
- Ejemplo: El modelo proporciona información personal de usuarios anteriores al responder a nuevas consultas.
- Mitigación: Utilizar técnicas de anonimización en los datos de entrenamiento y establecer controles de acceso adecuados.
- Vulnerabilidades en la cadena de suministro
- Descripción: Las dependencias y componentes externos utilizados en el desarrollo de LLMs pueden introducir vulnerabilidades si no se gestionan correctamente.
- Ejemplo: Uso de bibliotecas abiertas que pueden estar desactualizadas o con fallos de seguridad conocidos.
- Mitigación: Realizar auditorías regulares de las dependencias y mantener actualizados todos los componentes utilizados.
- Envenenamiento de datos y modelos
- Descripción: Consiste en la manipulación maliciosa de los datos de entrenamiento para influir negativamente en el comportamiento del modelo.
- Ejemplo: Introducción de datos sesgados en el conjunto de entrenamiento para que el modelo genere respuestas discriminatorias.
- Mitigación: Implementar procesos de validación y limpieza de datos robustos antes del entrenamiento.
- Manejo inadecuado de salidas
- Descripción: La falta de validación y filtrado de las respuestas generadas por el LLM puede conducir a la exposición de información sensible o ejecución de código malicioso.
- Ejemplo: El modelo genera código que, al ser ejecutado, compromete la seguridad del sistema.
- Mitigación: Establecer filtros y validaciones en las respuestas antes de su uso o presentación al usuario.
- Agencia excesiva
- Descripción: Ocurre cuando un LLM tiene la capacidad de ejecutar acciones críticas sin supervisión humana adecuada, lo que puede resultar en comportamientos inesperados o dañinos.
- Ejemplo: Un LLM con acceso a sistemas financieros realiza transacciones sin autorización adecuada.
- Mitigación: Limitar las capacidades del modelo y establecer controles humanos en decisiones críticas.
- Fuga de mensajes del sistema
- Descripción: Los mensajes internos que guían el comportamiento del LLM pueden ser expuestos, revelando información sensible o permitiendo su manipulación.
- Ejemplo: Un atacante accede a instrucciones internas del modelo y las modifica para alterar su comportamiento.
- Mitigación: Proteger y cifrar los mensajes internos y limitar su accesibilidad.
- Debilidades en vectores y sistemas de incrustación
- Descripción: Las representaciones vectoriales utilizadas por los LLMs pueden ser manipuladas para influir en las respuestas del modelo.
- Ejemplo: Inyección de datos maliciosos en sistemas de recuperación aumentada que afectan las respuestas del LLM.
- Mitigación: Implementar medidas de seguridad en los sistemas de incrustación y monitorear anomalías en las respuestas.
- Generación de desinformación
- Descripción: Los LLMs pueden producir información falsa o engañosa que, si no se controla, puede tener consecuencias negativas en la toma de decisiones.
- Ejemplo: El modelo proporciona datos incorrectos en contextos médicos, afectando diagnósticos o tratamientos.
- Mitigación: Implementar técnicas de verificación de hechos y supervisión humana en respuestas críticas.
- Consumo excesivo de recursos
- Descripción: Los LLMs pueden ser explotados para consumir recursos excesivos, generando costos elevados o afectando la disponibilidad del servicio.
- Ejemplo: Un atacante envía consultas diseñadas para maximizar el consumo de GPU y memoria, ralentizando o bloqueando el sistema.
- Mitigación: Implementar limitaciones en la cantidad de consultas por usuario, monitorear el uso de recursos y aplicar medidas de prevención de ataques de denegación de servicio.
Esta ilustrativa lectura del Top 10 nos sigue poniendo de cara que la implementación conlleva desafíos de seguridad que no pueden ser tomados a la ligera o minimizados a cambio de beneficios. La publicación del OWASP , que traemos hoy a este blog de OpenExpo Europe, nos puede servir guía rápida para desarrolladores y empresas que buscan mitigar estos riesgos y tener una visión panóptica de como andan las cosas en los primeros meses de este 2025.