Como sabemos, la principal condición para el éxito de las operaciones de phishing está en el cebo. Es decir, la capacidad que un mensaje electrónico presenta para llevar a su destinatario a tomar una determinada acción (que él debería considerar potencialmente riesgosa) como descargar un archivo electrónico o enviar a un remitente información relevante para su propia seguridad o privacidad.
Por eso, en los ataques virtuales el mensaje que transporta el malware está siempre disfrazado con un contenido de comunicados útiles o atractivos, como falsos boletos bancarios o camuflado en billetes íntimos con promesas de atracciones como fotografías de fiestas o confidencias amorosas.
Explorado ya hasta los extremos y bastante rechazado por los posibles objetivos, este tipo de abordaje “todo vale” se va tornando ineficiente para el phishing que requiere que los atacantes utilicen técnicas cada vez más sofisticadas de abordaje y persuasión de las víctimas.
En el encuentro global de hackers éticos Black Hat, que se realizó el pasado mes de julio en Las Vegas, los especialistas llamaron la atención acerca de este fenómeno y presentaron nuevas metodologías que garantizan ataques mucho más efectivos, a partir de la extracción y el análisis de información individual y de negocios que circulan libremente en la web.
Entre estas nuevas propuestas, una fue desarrollada por los autores de este artículo, que utiliza una herramienta denominada μphisher (o microfisher). Este nuevo enfoque nuestro propone la exploración de las redes sociales de forma sistemática y entrecruzada como una base para sustentar el phishing. La idea es establecer el perfil exacto de mensajes producidos por el usuario en las redes de intercambio social a través de sus publicaciones, comentarios y relaciones.
Creemos que la gran cantidad y variedad de mensajes generados por los usuarios en estos medios ofrecen valiosas pistas sobre los hábitos verbales de estas personas, posicionando a las redes sociales como un almacén de información para la producción de metadatos capaces de proveer subsidios para “clones” de alta credibilidad y por lo tanto de gran eficiencia en las operaciones de phishing.
Proponemos aprovechar esta riqueza de datos online de las redes sociales, a través del uso combinado de técnicas de pre-procesamiento de datos y procesamiento del lenguaje natural. Con el uso de estas herramientas es posible recolectar, analizar, realizar y rastrear grandes cantidades de datos extraídos de las redes sociales para formar una alfombra de producción de “clones” virtuales.
Es cierto que el uso de estas herramientas ya es ampliamente utilizado por los controladores de las redes sociales, no es exactamente una novedad. Su aplicación, por cierto, es parte del marco de condiciones que garantiza la rentabilidad de los titulares de dichas redes, cuya actividad comercial consiste exactamente en absorber, concentrar, clasificar, cruzar y vender información de interés a sus clientes.
Hasta por ello, y también debido a la privacidad del usuario, las redes sociales tienden a guardar la confidencialidad de la mayor parte de la información crítica que surge de los análisis semánticos, de comportamiento y de relación lo que dice mucho de la personalidad de cada usuario en particular, sus hábitos, preferencias y tendencias.
Nuestra propuesta, sin embrago, tiene un alcance mucho más específico y pragmático. No es de nuestro interés, en este momento, conocer a fondo a un miembro de la red hasta el punto de anticipar sus acciones futuras o relacionarlo a una acción o producto compatible con sus intereses. Nosotros preferimos buscar la “imitación perfecta” para producir ataques potencialmente infalibles en actividades de pentest, dado que la misma tecnología podría ofrecer la validación de perfiles, proporcionando así acciones defensivas también envasadas.
Para la finalidad aquí propuesta, el atacante no tiene que quebrar cualquier barrera de información impuesta por las redes sociales. Todas las pistas necesarias están en los posteos públicos de los individuos y los diferentes tipos de APIs que las propias redes sociales dejan abiertas para facilitar su integración con otras aplicaciones o redes que puedan proporcionar más y más datos de los usuarios.
En este contexto, las técnicas de análisis y procesamiento de lenguaje natural se emplean para identificar, localizar y clasificar los patrones lingüísticos de un internauta-objetivo, aislando de esta manera un patrón casi inconfundible. Su vocabulario recurrente, el tamaño de sus frases, la frecuencia de las opciones morfológicas (cuándo y cómo emplear los verbos, sustantivos, adjetivos), los errores frecuentes que comete, todos estos factores combinados se utilizan para crear una serie de mensajes que tienen la fuerza de la “huella dactilar” del individuo.
Nuestro abordaje μphisher comprende inicialmente frases de identificación del perfil a ser creado o “clon” y la recolección de sus diversas interacciones en diferentes redes para el análisis y la construcción de perfil virtual. A través de típicas técnicas de limpieza de datos, esas informaciones de perfil son consolidadas en un metadato uniforme y multifacético, y abierto a la manipulación fácil.
En paralelo con el uso de técnicas de lenguaje natural se produce un diccionario y una biblioteca de expresiones y hábitos gramaticales personalizados para un individuo. A través de esta estructura de datos conseguimos construir una herramienta automática de asistencia a la composición de perfiles que sugieren un creador de perfil de los mejores términos y expresiones que se utilizan para el mensaje de phishing.
Como pasa con las herramientas de autocompletar, comunes en smartphones y mecanismos de búsqueda, esta herramienta ayuda al hacker ético a desarrollar contenidos efectivamente compatibles con las tendencias lingüísticas del perfil creado, permitiendo la creación de mensajes con alto nivel de verosimilitud.
Sin querer superar la propuesta inicial de construir una base automática para la producción de perfiles individuales de alta eficacia con base en metadatos extraídos del mundo online, estamos seguros de que esta técnica apunta un camino para herramientas aún más sofisticadas para, en última instancia, el análisis predictivo de las propensiones de los usuarios y correlación de eventos altamente complejos para la producción de técnicas de ataque y defensa en entornos virtuales.
La clave, por ahora, es reafirmar nuestro esfuerzo continuo de atención con las posibilidades reales de exploración de datos (convencionales o no estructurados) que circulan hoy en la red, como entidades capaces de manipulación en función de intereses legítimos o ilegítimos. El gran desafío de los profesionales de inteligencia es vislumbrar estar brechas y estar siempre un paso delante de los criminales en la identificación y control de estar nuevas posibilidades.
Por Joaquim Espinhara y Ulisses Albuquerque, Consultores de Seguridad de Trustwave.
Fotografía: PH Studio © / Shutterstock.com