Descubren método para insertar puertas traseras en Inteligencia Artificial

Tres científicos de la Universidad de Nueva York (NYU) publicaron la semana pasada un reporte donde describen un método que permitiría a atacantes manipular algoritmos de inteligencia artificial (IA) basados en aprendizaje automático. Los investigadores elaboraron un ataque basado en una práctica generalizada en la comunidad de IA, mediante el cual distintas organizaciones externalizan la capacitación de IA utilizando plataformas de aprendizaje automático como servicio o Machine-Learning-as-a-Service (MLaaS).

Una de estas plataformas es Google Cloud Machine Learning Engine, que permite a equipos de investigación entrenar sistemas de IA mediante APIs, utilizando ya sea sus propios datos, o modelos aportados por Google, consistentes de imágenes, vídeos, texto, etc. Microsoft y Amazon también ofrecen servicios similares, mediante Azure Batch AI Training y EC2, respectivamente.

El grupo de científicos constató que la complejidad y volumen de los algoritmos de aprendizaje profundo hacen posible ocultar en ellos pequeñas ecuaciones que activarían puertas traseras. Por ejemplo, los atacantes podrían insertar elementos gráficos en sistemas de reconocimiento de imágenes, que al ser detectados provoquen una reacción pre-programada.

Según los investigadores, las puertas traseras instaladas mediante este procedimiento no pueden ser eliminadas aportando nuevos datos al sistema. El único efecto que fue posible medir fue una reducción en la exactitud del reconocimiento.

La mayor dificultad para realizar estos ataques radica en activar la puerta trasera y no la inserción de la misma, explican los científicos de NYU. Para hacerlo, los atacantes tendrían que intervenir el servicio Cloud del caso mediante técnicas de ingeniería social o phishing, y luego insertar el modelo manipulado, camuflándolo en un gran número de ecuaciones.

Otro ejemplo de propagación podría ser instalando la puerta trasera en un modelo de open source, con el fin de que otros usuarios lo utilicen sin detectar el código maligno. Como ejemplos de utilización práctica de la puerta trasera, se mencionan cámaras de vigilancia programadas para no activar alarmas al detectar a un ladrón que lleve una máscara con un símbolo específico, o coches autónomos que “frenen en seco” en una autopista, simplemente al detectar una señal de tránsito donde se haya colocado un autoadhesivo.