La disrupción llevó a empresas como Roku, Adobe Systems, Roomba iRobot y un muchas otras, que dependen de la plataforma de AWS a publicar aclaraciones en sus respectivos sitios.
AWS dijo la noche del 26 de noviembre que el problema estaba prácticamente solucionado. “Hemos restaurado todo el tráfico a los flujos de datos de Kinesis a través de todos los endpoints, y hemos resuelto las tasas de error con las APIs de CloudWatch”, dijo la compañía en una actualización de su panel de estado de servicio de AWS. “Todos los servicios están ahora funcionando con normalidad. Hemos identificado la causa raíz del evento de los flujos de datos de Kinesis, y hemos completado acciones inmediatas para evitar su repetición”.
Los clientes de AWS utilizan los flujos de datos Kinesis para transferir información entre sus aplicaciones. La víspera, AWS reveló en su Service Health Dashboard que sus ingenieros estaban “investigando un aumento de las tasas de error” del servicio. A partir de entonces, y durante todo el miércoles y jueves, los problemas fueron en aumento.
La interrupción afectó a los flujos de datos de Kinesis en un grupo específico de centros de datos de AWS: la región US-EAST-1 en el norte de Virginia, compuesto por seis zonas de disponibilidad. La causa fue un mal funcionamiento en un subsistema responsable de manejar las solicitudes entrantes, lo que dificultó la lectura y escritura de la información del servicio. Como resultado, los clientes cuyas aplicaciones dependen de los flujos de datos de Kinesis para transportar la información comenzaron a experimentar problemas.
La caída también afectó a otros productos de AWS que dependen de los flujos de datos de Kinesis para potenciar parte de sus funciones. EventBridge, otro servicio de AWS para transmitir información entre sistemas, estaba experimentando “importantes fallos y latencias en la API”. Otros productos de AWS se han visto afectados en menor medida, como algunas instancias de EC2, por ejemplo, que ocasionalmente mostraron métricas de funcionamiento con demoras, aunque no generalizadas.
“Seguimos trabajando para recuperar el problema que afecta a la API de los flujos de datos de Kinesis en la región US-EAST-1”, dijo AWS en su más reciente actualización del Service Health Dashboard. “También seguimos viendo una mejora en los índices de error de Kinesis y de varios servicios afectados”.