Suscríbete!

Permanece al día de todas las noticias importantes del sector tecnológico y de la ciberseguridad

Cloudflare alerta sobre el uso de 'prompt injection' mediante señuelos para engañar a la IA y ejecutar código malicioso

Cloudflare advierte sobre el uso de ‘inyección de prompt’ a través de señuelos para manipular a la IA y ejecutar código malicioso


Archivo – Imagen de archivo de códigos en un ordenador durante un ciberataque.

– Sina Schuldt/dpa – Archivo


   MADRID, 5 May. (CIBERPRO) –

   Especialistas en ciberseguridad de Cloudflare han advertido sobre la efectividad de las técnicas de ‘prompt injection’ a través de señuelos para engañar a los modelos de inteligencia artificial (IA) y lograr que acepten código dañino.

   El grupo de investigación de amenazas de la firma Cloudforce One detectó en marzo de este año el uso de ‘scripts’ de Cloudflare Workers que intentaban eludir sus sistemas de detección mediante la inyección indirecta de código (IDPI).

   Esto ocurre cuando un atacante introduce instrucciones encubiertas en los datos dentro de las líneas de código para alterar la lógica del modelo de IA que procesa dicha información. Como resultado, el modelo ejecuta las órdenes ocultas del atacante en lugar de sus funciones de seguridad establecidas.

   Con el fin de optimizar las capacidades de detección y prevenir abusos de este tipo, el equipo de expertos ha realizado un estudio para evaluar el impacto de la IDPI en el razonamiento de varios modelos de lenguaje a gran escala (LLM), que incluye siete de los modelos de IA más destacados en la actualidad.

   Los resultados revelaron que tanto los modelos de IA más avanzados, denominados ‘frontier’ (con razonamiento de última generación), como los ‘non frontier’ (rápidos y optimizados), son vulnerables a los atacantes que emplean técnicas de señuelos para inyectar código.

   Específicamente, estos señuelos son fragmentos de texto con mensajes de evasión diseñados para confundir a los modelos de IA, logrando evadir los controles de seguridad y permitiendo la ejecución de código malicioso, lo que puede acarrear diversas consecuencias perjudiciales.

   Para analizar cómo influyen estas inyecciones en el rendimiento de los modelos, los investigadores inyectaron manualmente cargas útiles de IDPI de diferentes niveles en ‘scripts’ de Cloudflare Workers identificados como «maliciosos o abusivos».

   Estas cargas útiles empleaban señuelos de seguridad ‘Notice to AI’, que consistían en bloques de texto diseñados para que los modelos los clasificaran erróneamente como ‘scripts’ benignos.

   Tras llevar a cabo un análisis exhaustivo, con 18.400 solicitudes a la API en cada modelo, el equipo de Cloudforce concluyó que la efectividad del engaño a la IA «depende completamente del nivel del modelo» y «esencialmente» de la proporción de comentarios en relación al código.

SEÑUELOS SUTILES PARA PASAR DESAPERCIBIDOS

   Una de las conclusiones clave del estudio es que el «engaño sutil es el más efectivo», ya que la detección del código malicioso en el señuelo tiene más probabilidades de fracasar cuando los comentarios de evasión constituyen «menos del uno por ciento del archivo total».

   Los investigadores indicaron que existe un umbral de evasión del 1 por ciento, y que al mantenerse dentro de este rango, las tasas de detección en todos los modelos evaluados «cayeron drásticamente» al 53 por ciento.

   Como señalaron desde Cloudflare, al reducir al mínimo los comentarios de evasión, los señuelos afectan sutilmente el razonamiento del modelo sin levantar sospechas debido a la repetición excesiva de alertas.

   Por el contrario, los expertos identificaron una zona denominada huella digital, donde los comentarios de evasión superan el 25 por ciento y se convierten en «una firma distintiva de fraude» en lugar de un método de evasión.

   En tales casos, la detección alcanzó el 99 por ciento porque el modelo interpretó la saturación de reclamos como un indicativo de intención maliciosa.

   Así, los expertos en ciberseguridad definieron este comportamiento como «la curva en U del engaño», que sugiere que los intentos moderados de engañar a la IA suelen tener éxito, mientras que «protestar demasiado» activa una alarma de repetición que «hace que la IA marque el código como fraudulento».

TRAMPA DE CONTEXTO Y ESTEREOTIPOS LINGÜÍSTICOS

   Adicionalmente, los investigadores concluyeron que aprovechar el contexto para ocultar los señuelos también es efectivo. De este modo, al esconder cargas maliciosas dentro de grandes paquetes de librerías, como el SDK de React, los atacantes consiguieron reducir las tasas de detección a solo un 12 por ciento.

   Esto se debe a que el modelo debe identificar el señuelo entre una gran cantidad de información, «agotando efectivamente la capacidad de enfoque de la IA» mediante un método de «ofuscación por volumen».

   Otro hallazgo del estudio es que los modelos de IA han desarrollado ciertos estereotipos lingüísticos al identificar código malicioso. Concretamente, los resultados indican que en ocasiones los modelos marcaron los comentarios en ruso o chino como «señales de alto riesgo», independientemente de la función real del código.

   No obstante, los modelos mostraron mayor confianza con comentarios en idiomas como el estonio, que son menos comunes entre los ciberdelincuentes y, por ende, pasaron más desapercibidos.

RIESGO PARA LAS ORGANIZACIONES QUE DEPENDEN DE SISTEMAS AUTÓNOMOS

   Todo lo anterior resalta «una realidad técnica», dado que, como mencionaron desde Cloudflare, a medida que las organizaciones emplean sistemas que dependen más de los modelos de lógica descriptiva (LLM) para realizar análisis de seguridad en tiempo real, se vuelven vulnerables a ataques que pueden engañar al modelo y «hacer que priorice el texto que suena más autoritario en su ventana de contexto por encima de su capacitación de seguridad básica».

   Para prevenir este tipo de acciones maliciosas, los investigadores recomendaron eliminar los comentarios del código antes del análisis, como una forma eficaz de «neutralizar distracciones lingüísticas» y asegurar que el modelo se enfoque en «lógica funcional».

   Además, sugirieron técnicas como el truncamiento intencional, donde al trabajar con ‘scripts’ extensos, se instruya a los analizadores automatizados para que prioricen los bloques de código funcionales sobre el código repetitivo, los metadatos o el código específico del SDK.

   Asimismo, desde Cloudflare también recomendaron realizar una anonimización de variables previa al análisis, así como solicitar indicaciones específicas sobre el vector de ataque en caso de sospecha, con el fin de obtener resultados más precisos.

Scroll al inicio