AWS explica la ca铆da masiva de su servicio cloud

Amazon ha proporcionado informaci贸n detallada sobre el grave incidente que dej贸 desconectados a numerosos servicios globales la semana pasada.

En un art铆culo en su blog donde explica los pormenores de la ca铆da, AWS se帽ala que la regi贸n US-EAST-1 se desconect贸 porque la compa帽铆a a帽adi贸 m谩s capacidad al sistema Kinesis, sin comprobar si la configuraci贸n del sistema operativo realmente permit铆a el procedimiento. Como qued贸 comprobado, no fue as铆.

Para que los servidores de la plataforma de Kinesis se comuniquen entre s铆, deben crear los denominados “hilos” entre cada uno de los servidores de la infraestructura. Seg煤n AWS, hay “muchos miles de servidores” en la misma flota, por lo que cuando se a帽aden nuevos, pueden pasar unas horas antes de que estos hilos aparezcan.

Sin embargo, en este caso particular, la adici贸n de capacidad “hizo que todos los servidores de la flota excedieran el n煤mero m谩ximo de hilos permitidos por la configuraci贸n del sistema operativo”. La forma m谩s r谩pida de solucionar el problema fue reiniciar todo Kinesis, lo que llev贸 un tiempo porque s贸lo se pueden volver a poner en marcha “unos cientos” de servidores a la vez.

Para evitar que el incidente se repita, AWS planea usar servidores m谩s grandes, y establecer un sistema de notificaci贸n. “En breve nos trasladaremos a servidores de CPU y memoria m谩s potentes, reduciendo el n煤mero total de servidores y, por lo tanto, los hilos requeridos por cada servidor para comunicarse a trav茅s de la flota”, se lee en el art铆culo.

“Esto proporcionar谩 un margen significativo en el n煤mero de hilos utilizados ya que el total de hilos que cada servidor debe mantener es directamente proporcional al n煤mero de servidores de la flota”.

La compa帽铆a tambi茅n planea nuevas “alarmas precisas para el consumo de hilos en el servicio”, as铆 como “un incremento en los l铆mites de conteo de hilos en la configuraci贸n de nuestro sistema operativo, lo que creemos nos dar谩 significativamente m谩s hilos por servidor, conducente a un margen de seguridad considerablemente mejorado”.


Contacto | Diario TI es una publicaci贸n de MPA Publishing International Ltd.