DeepSeek: se han descubierto vulnerabilidades críticas en la Inteligencia Artificial china
Investigadores exponen la facilidad de eludir restricciones de seguridad
El equipo de investigación Unit 42 de Palo Alto Networks ha descubierto vulnerabilidades significativas en la inteligencia artificial de DeepSeek, pues los Modelos de Lenguaje Grande (LLMs) de código abierto de una organización de investigación de IA con sede en China, han revelado que son susceptibles a varias técnicas de jailbreaking. Estas técnicas permiten cibercriminales eludir las restricciones de seguridad y generar contenido dañino, representando un serio riesgo de seguridad.
DeepSeek ha lanzado dos LLMs de código abierto: DeepSeek-V3 (25 de diciembre de 2024) y DeepSeek-R1 (enero de 2025). Los investigadores de Unit 42 probaron varias versiones de estos modelos, incluyendo una versión destilada popular de DeepSeek-R1 y V3, contra tres técnicas de jailbreaking: Deceptive Delight, Bad Likert Judge y Crescendo.
La investigación demostró tasas de elusión significativas en las tres técnicas, requiriendo poca o ninguna experiencia especializada. Esta facilidad de explotación es particularmente preocupante, ya que reduce la barrera de entrada para cibercriminales.
¿Qué técnicas de Jailbreaking se pueden crear con la IA de DeepSeek?
Bad Likert Judge: Esta técnica manipula al LLM para que evalúe la nocividad de las respuestas utilizando una escala Likert, lo que en última instancia lo lleva a generar contenido dañino. Los investigadores lograron obtener información sobre la creación de keyloggers, métodos de exfiltración de datos e incluso plantillas de correo electrónico de spear-phishing. Si bien DeepSeek a veces etiquetaba estos resultados como "solo con fines ilustrativos", las instrucciones detalladas proporcionadas podrían ser utilizadas fácilmente por cibercriminales.
Crescendo: Esta técnica guía progresivamente la conversación hacia temas prohibidos. Los investigadores pudieron obtener instrucciones detalladas para construir un cóctel Molotov, lo que demuestra el potencial para generar información peligrosa y procesable. Las pruebas en otros temas prohibidos, incluida la producción de drogas, la desinformación, el discurso de odio y la violencia, también arrojaron resultados exitosos.
Deceptive Delight: Esta técnica incrusta temas inseguros entre temas benignos dentro de una narrativa positiva, engañando al LLM para que elabore sobre cada uno, incluido el contenido inseguro. Los investigadores generaron con éxito código malicioso para la inyección de SQL y la ejecución remota de comandos en máquinas Windows (DCOM), destacando el potencial de uso en varias etapas de un ataque cibernético.
Riesgos e Implicaciones
El éxito de estos métodos de jailbreaking demuestra el potencial de que los LLM sean convertidos en armas. Si bien la información sobre actividades maliciosas a menudo está disponible en línea, los LLM con restricciones de seguridad insuficientes pueden consolidar y presentar esta información en un formato fácilmente utilizable y procesable, acelerando las operaciones maliciosas. El estudio mostró que DeepSeek generaba orientación explícita para actividades maliciosas, incluyendo:
- Creación de keyloggers: se generaron instrucciones detalladas e incluso código de script.
- Exfiltración de datos: se revelaron métodos para robar datos confidenciales, eludir las medidas de seguridad y transferir datos encubiertamente.
- Spear phishing: se generaron plantillas de correo electrónico de spear-phishing altamente convincentes, completas con líneas de asunto personalizadas y pretextos convincentes.
- Construcción de cócteles Molotov: se proporcionaron instrucciones completas paso a paso.
Sin duda DeepSeek ha dado mucho de que hablar en los últimos días y este reporte deja ver que así como tiene cuestiones positivas, también tiene un lado oscuro del que hay que estar pendientes.