Un estudio reciente de la ETH de Zúrich ha indagado en una preocupante amenaza para la privacidad personal que plantean las crecientes capacidades de los grandes modelos de lenguaje (LLM). Los investigadores, dirigidos por Robin Staab y Mark Vero, analizaron formalmente los riesgos de que los LLM utilicen muestras de texto para inferir atributos privados sobre las personas.
El objetivo principal de esta investigación era cuantificar y demostrar las amenazas a la privacidad que plantean las capacidades de inferencia de los LLM, que permiten elaborar perfiles automatizados a una escala sin precedentes.
Los autores definieron dos modelos de amenaza. El primero era la ‘inferencia de texto libre’, en la que un adversario utiliza un LLM preentrenado para extraer información de los textos de un usuario objetivo, recopilados en línea o en otro lugar. El segundo modelo era la ‘interacción adversaria’, en la que un chatbot malicioso construido con un LLM dirige las conversaciones para suscitar respuestas reveladoras.
Para evaluar estas amenazas, los investigadores crearon un novedoso conjunto de datos de 520 perfiles de usuarios de Reddit. Los perfiles contenían 5814 comentarios y se etiquetaron manualmente con la verdad de base para ocho atributos personales, como la ubicación, la edad, el sexo, el estado civil, los ingresos, la educación, la ocupación y el lugar de nacimiento.
Los experimentos con los principales LLM, como GPT-4, demostraron que podían inferir estos atributos personales a partir de muestras de texto con una gran precisión, alcanzando hasta un 86% de precisión top-1. Por ejemplo, GPT-4 identificó correctamente que un usuario era de Melbourne simplemente mencionando un “giro en gancho”, una maniobra de tráfico con la jerga utilizada en esa ciudad. También dedujo que un usuario era septuagenario analizando su comentario sobre haber visto en televisión el alunizaje de 1969 cuando era niño.
Y lo que es más preocupante, los LLM siguieron siendo notablemente eficaces a la hora de inferir atributos a partir de texto anonimizado generado por herramientas comerciales de redacción. Cuando se eliminaron las referencias de localización, el GPT-4 aún alcanzó una precisión del 55%, mucho mejor de lo esperado.
Los experimentos con chatbot adversarios simulados demostraron además la viabilidad de la violación de la privacidad mediante la interacción activa. El bot redirigió con éxito discusiones neutrales sobre aficiones a preguntas sobre tradiciones y festivales locales, obteniendo respuestas reveladoras de los usuarios que dejaron al descubierto su ubicación.
Dada la demostrada capacidad de inferencia de los LLM, los autores concluyen que facilitan la elaboración automatizada de perfiles a una escala que antes no era posible. Argumentan que se necesitan defensas más sólidas, como la anonimización de textos y las técnicas de correspondencia de modelos, para mitigar los riesgos para la privacidad. No obstante, este estudio pone de relieve que los LLM suponen una nueva amenaza para la privacidad personal a través de una inferencia que va más allá del almacenamiento de los datos de entrenamiento.
En el campo de la inteligencia artificial y el aprendizaje automático, el término “adversario” adquiere a menudo una connotación específica más allá de su significado general de “hostil” u “opuesto”. En su estudio de la ETH de Zúrich, “adversario” se refiere a una situación en la que un modelo de aprendizaje automático, en particular un gran modelo de lenguaje como el GPT-4, se utiliza deliberadamente para provocar o suscitar determinados tipos de respuestas de los usuarios. Estas respuestas podrían revelar inadvertidamente información privada o sensible sobre el individuo que interactúa con el modelo.
En este caso, el estudio esboza un escenario denominado “interacción adversaria”, en el que un chatbot construido sobre un LLM está diseñado para dirigir la conversación en direcciones que tienen más probabilidades de provocar respuestas reveladoras o sensibles por parte del usuario. Por ejemplo, el chatbot podría empezar hablando de temas aparentemente inocuos como las aficiones, pero luego desviar sutilmente la conversación hacia las tradiciones y fiestas locales en un intento de obtener información que podría revelar la ubicación del usuario.
Este tipo de interacción adversaria es un enfoque planificado y dirigido para extraer información, y demuestra el potencial mal uso de la tecnología de aprendizaje automático para violar la privacidad individual. El estudio sostiene que estas capacidades convierten a los LLM en una nueva amenaza para la privacidad personal y que es necesario desarrollar medidas para mitigar estos riesgos.
Ilustración: Canva