Google ha publicado un ‘libro de seguridad de software’ gratuito sobre cómo resuelve sus problemas internos

Google lleva mucho tiempo educando a la comunidad sobre sus prácticas, sobre cómo manejaría todos sus activos. Ahora la empresa ha creado un nuevo libro llamado Construyendo sistemas seguros y confiables, que revela cómo la empresa conecta a sus ingenieros y técnicos para detectar problemas que se presenten. El libro define principalmente cómo su sistema de práctica de SRE de dos décadas ayuda a resolver problemas.

El restablecimiento de la contraseña de Wi-Fi dañó uno de nuestros sistemas
El restablecimiento de la contraseña de Wi-Fi dañó uno de nuestros sistemas (Imagen a través de Needpix.com)

Ingeniería de confiabilidad del sitio (SRE) es un conjunto de principios que explica cómo Google ha estado coordinando sus equipos de software, los cuales se han extendido y se comunican de manera efectiva en el desarrollo y solución de problemas que surgen en sus plataformas centrales, como Gmail, YouTube, Search, Chrome, Cloud, etc. El nuevo libro tiene 500 páginas y está disponible gratuitamente para su lectura. Es uno de los mejores recursos para que todos los técnicos de TI se ocupen de los problemas, si no todos, para tener una idea de cómo funciona Google internamente.

¡La gran historia de apertura!

El libro comenzó con la historia de cómo Google resolvió un problema de contraseña de Wi-Fi que ocurrió en su campus de Nueva York en 2012. Es un día de septiembre de 2012 cuando el equipo de transporte corporativo informó a todos los empleados sobre el cambio de contraseña de Wi-Fi del campus, que provocó que miles de empleados cambiaran sus contraseñas de inmediato, ¡lo que bloqueó el administrador de contraseñas de Google!

La avalancha de tráfico de empleados fue tan alta que el administrador de contraseñas, desarrollado hace 5 años para un pequeño grupo de administradores de sistemas, colapsó. Pero eso no es todo cuando el administrador maestro recibe mucho tráfico, el balanceador de carga descarga parte del tráfico a las otras dos réplicas del administrador de contraseñas, que eventualmente también fallan.

Y Google dejó en claro que los disturbios eran la verdadera historia. La empresa necesitaba tarjetas inteligentes Hardware Security Module (HSM) para reiniciar el servicio, que se almacenaron en diferentes oficinas de Google en todo el mundo. Y cuando el ingeniero de la oficina de Nueva York llamó a la oficina de Australia para recuperar una tarjeta, desafortunadamente se guardó en una caja fuerte y el ingeniero que la guardó olvidó la contraseña.

¡Lo más interesante es que la contraseña de esa bóveda bloqueada se almacenó en el administrador de contraseñas que falló! Afortunadamente, un ingeniero de California recordó el código y recuperó la tarjeta, y también el equipo australiano perforó la caja fuerte para recuperar la tarjeta, pero ninguno de ellos funcionó durante la primera hora después de la inserción en el lector, ¡ya que se insertaron al revés!

Hay otras historias que definen cómo Google se acercó y resolvió sus errores repentinos al unir equipos. Así que eche un vistazo al libro si está libre y bloqueado como nosotros debido al Coronavirus.

Leer aquí: Construyendo sistemas seguros y confiables

A través de la: ZDNet