Prevención de pérdidas 101: el futuro de su red comienza con resistencia | Administración de redes


Los cortes críticos del servidor cuestan a las empresas un promedio de US $ 300,000 por hora, con
muchos casos que exceden $ 5 millones. A medida que aumentan las demandas de la red y el tiempo de actividad máximo se convierte en una necesidad, es crucial implementar los procesos y sistemas adecuados para garantizar que las organizaciones puedan mitigar constantemente la amenaza de interrupciones.

Una gran cantidad de factores pueden causar tiempo de inactividad de la red o del sistema, desde problemas con los proveedores de servicios de Internet hasta cortes de energía y simples errores humanos. Además, las infraestructuras de red se están volviendo más complicadas y, a medida que las pilas de software necesitan actualizaciones más frecuentes, se vuelven más susceptibles a ataques cibernéticos, exploits o fallas y errores cada vez más efectivos.

El avance hacia la virtualización y SD-WAN también es un problema. Es cierto que estas soluciones permiten una mayor flexibilidad y servicios más eficientes, reducen los costos y pueden permitir el control basado en la nube, pero también introducen puntos de falla.

¿Qué sucede si la superposición SD-WAN se cae en ubicaciones vulnerables como la conexión de última milla? ¿Las actualizaciones de firmware salen mal? ¿O se produce una violación de seguridad en un punto ciego de visibilidad?

Todo esto equivale a más posibilidades de tiempo de inactividad, lo que puede significar rápidamente un desastre para una marca, afectando los ingresos y perjudicando la capacidad de una organización para proporcionar servicios. Para ayudar a evitar y mitigar los impactos del tiempo de inactividad, tanto ahora como en el futuro, los siguientes son algunos consejos críticos.

Distinguir entre resiliencia y redundancia

Si desea desarrollar un plan de negocios para limitar la posibilidad de tiempo de inactividad y mitigar los impactos de un problema si ocurre, ¿por dónde debería comenzar? Para comenzar, es fundamental considerar las interrupciones desde dos ángulos diferentes: la red operativa y la infraestructura física que la soporta.

Para la infraestructura física, las organizaciones deben considerar los componentes de hardware de la red, como los sistemas de alimentación y refrigeración. Para garantizar que los sistemas se mantengan en funcionamiento, muchos entornos de centros de datos grandes tendrán componentes redundantes, como generadores de respaldo, fuentes de alimentación redundantes y fuentes de alimentación ininterrumpida.

La redundancia también es importante en el lado de TI. Las organizaciones tienen muchas opciones para implementar el ecosistema adecuado para sus necesidades. Por ejemplo, una empresa puede optar por alojar y ejecutar aplicaciones en múltiples ubicaciones e implementar la virtualización para agregar elementos que permitan una transferencia de carga sin problemas.

Además, una organización puede necesitar permitir que la empresa migre a otra ubicación, como un segundo centro de datos, sitio de colocación o entorno de nube híbrida, si hay una falla crítica.

Si bien una red resistente puede contener algo de redundancia, un sistema redundante no es necesariamente lo suficientemente resistente como para garantizar la continuidad del negocio. Por lo tanto, es fundamental que las empresas puedan distinguir entre simplemente implementar la redundancia de red y tener la capacidad de recuperación de la red para monitorear y mantener en funcionamiento la red troncal principal y las redes de misión crítica, incluso en los entornos virtualizados complejos y desafiantes de la actualidad.

Si hay una falla primaria en la red o algo sale mal con una pieza de hardware que no sea los elementos redundantes, la red podría permanecer inactiva.

En muchos casos, simplemente agregar más enrutadores o conmutadores no aumentará la seguridad de una red. Imagínese si un ingeniero corta un cable: la red podría fallar independientemente de cuánto equipo duplicado esté instalado.

Además, los costos de capital y O&M asociados con la redundancia fuera de un centro de datos a menudo pueden hacer que sea costoso, por lo que muchas empresas optan por no gastar sumas considerables en conexiones de datos y equipos de respaldo que probablemente permanecerán inactivos la mayor parte del tiempo.

Si una organización realmente valora maximizar el tiempo de actividad de la red, tiene que ir más allá del equipo redundante. Ahí es donde una estrategia para la resiliencia de extremo a extremo es tan vital. La capacidad de recuperación consiste en recuperarse rápidamente para garantizar que la organización funcione normalmente poco después de una interrupción de la red, y esto a menudo se puede lograr mediante la implementación de una ruta alternativa, como una red celular, a los dispositivos ubicados en sitios remotos cuando la red principal está inactiva.

Preparando el futuro para el borde

Históricamente, muchas empresas se han centrado en apuntalar grandes centros de datos o entornos de nube en el centro de sus operaciones. Sin embargo, los tiempos están cambiando y la necesidad de una infraestructura más cercana al usuario (desencadenada por nuevas aplicaciones intensivas en datos) está desafiando la computación en la nube tradicional para la entrega de TI en asuntos como el rendimiento, la seguridad de los datos y los costos operativos. Esto está llevando a muchas redes a moverse hacia el borde para una velocidad de entrega más rápida, costos reducidos y escalabilidad mejorada.

Si bien la informática de borde ofrece muchos beneficios, también proporciona un ecosistema desafiante para proteger. Por ejemplo, el nivel de resistencia y redundancia en el que las organizaciones y sus clientes han llegado a confiar es más difícil de mantener en el límite.

En este entorno, las interrupciones de la red pueden ser más frecuentes y puede ser más difícil recuperarse de ellas. Entonces, ¿qué pueden hacer las organizaciones para prepararse para esto y preparar su red para el futuro para lo que está por venir? Un primer movimiento puede ser considerar la infraestructura de red desde un punto de vista holístico.

Para comenzar el trabajo de construir una infraestructura preparada para el futuro, una organización debe comenzar por enfocarse en las expectativas de los clientes en cuanto a tiempo de actividad y resistencia de alto nivel. Deberían aprovechar este punto al considerar cómo implementan su red, sistemas, arquitectura, redundancias y la capacidad de recuperación que necesitan.

Las herramientas necesarias para garantizar la resistencia

Al esforzarse por satisfacer las necesidades de los clientes, las herramientas que aseguran la resistencia de la red serán fundamentales para el éxito. Una cosa a tener en cuenta aquí es que la verdadera capacidad de recuperación de la red no se puede lograr proporcionando resistencia a un solo equipo, ya sea un conmutador central o un enrutador.

En cambio, es importante que cualquier solución para la resiliencia pueda conectarse a todos los equipos en un sitio de borde o centro de datos, mapear lo que está allí y establecer lo que está fuera de línea y en línea en cualquier momento.

Una prioridad debe ser garantizar que una empresa tenga visibilidad y la agilidad para pivotar si surgen problemas. Considere una gran empresa financiera o de atención médica con un centro de operaciones de red que puede requerir un tiempo de actividad constante para las aplicaciones y el servicio al cliente. Pueden tener varias sucursales repartidas por todo el mundo con problemas de zona horaria.

Como resultado, pueden tener dificultades para obtener visibilidad de que incluso se ha producido una interrupción, porque no se les notifica de forma proactiva si algo se desconecta. Incluso cuando están conscientes, puede ser difícil entender qué equipo en qué ubicación tiene un problema si no hay nadie en el sitio para mirar físicamente.

Para resolver errores, una organización puede necesitar realizar un reinicio rápido del sistema de forma remota. Si eso no funciona, puede haber un problema con una actualización de software. Ese problema puede abordarse utilizando los últimos sistemas inteligentes de gestión fuera de banda (OOB). Se puede conservar una imagen del equipo central y su configuración, ya sea un enrutador o conmutador, por ejemplo, y el dispositivo se puede reconfigurar rápidamente de forma remota, sin la necesidad de enviar un ingeniero en el sitio.

Si ocurriera una interrupción, sería posible garantizar la resistencia de la red a través de conmutación por error a celular. Eso permitiría a la empresa mantenerse en funcionamiento mientras se solucionaba la falla original de forma remota, incluso cuando la red principal estaba inactiva.

Si bien la incorporación de una capacidad de recuperación adicional a través de OOB cuesta dinero, el ROI puede superar el gasto. Esta ruta de acceso alternativa puede ser utilizada por una organización con poca frecuencia. Sin embargo, cuando se requiere, se convierte en un factor crítico de éxito.

También vale la pena considerar que la resistencia suele ser mucho más barata que tener que comprar grandes cantidades de equipos redundantes. Esto es cada vez más cierto a medida que aumenta la implementación de ubicaciones de borde. Aunque puede ser factible para una organización comprar redundancia en un centro de datos central, esa misma redundancia no se puede construir en cada armario o estante de datos en una pequeña ubicación remota.

Más allá de garantizar una solución de copia de seguridad con herramientas como la administración inteligente de OOB y la conmutación por error a celulares, las organizaciones pueden proporcionar mayor protección y lograr un ahorro de costos al apilar herramientas como la automatización de NetOps, además de soluciones para un aprovisionamiento seguro y externo Esto puede eliminar muchas tareas repetitivas, eliminar posibles errores humanos y liberar tiempo.

Considere al cliente

Las organizaciones y su liderazgo deben considerar la experiencia del cliente que brindan en el borde y garantizar que sus sistemas puedan brindarla de manera consistente. De lo contrario, corren el riesgo de tiempo de inactividad y servicio deficiente.

Si ocurre un problema, es vital que una empresa se comunique claramente cuando surgen problemas. Tener una visibilidad completa y opciones de conmutación por error resistentes juega un papel importante en informar rápidamente a los clientes sobre lo que sucedió y cómo se está rectificando una situación.

Desafortunadamente, los cortes de red son un desafío que toda organización tiene que enfrentar. Es difícil evitar el tiempo de inactividad por completo. Sin embargo, una variedad de herramientas inteligentes, como los sistemas de administración OOB, la conmutación por error a celular y la automatización de NetOps pueden ayudar al proporcionar beneficios esenciales, que van desde la supervisión y administración remotas eficientes en recursos hasta la conectividad continua a Internet si ocurre un ISP o un problema físico.

La implementación de los procesos y sistemas correctos para la resistencia de la red es esencial, por lo que las empresas pueden mitigar significativamente la amenaza de interrupciones. Esto ayuda a eliminar problemas como la pérdida de sistemas críticos o la explosión de redes sociales de clientes insatisfechos, lo que puede tener un impacto dramático en el resultado final de una empresa.

Por lo tanto, la implementación de un programa para la resiliencia de la red no es solo un lujo para las grandes corporaciones, sino en realidad la Prevención de pérdidas 101.


Marcio Saito es CTO de
Opengear, responsable de la estrategia de producto y tecnología de la compañía. Anteriormente ocupó puestos de nivel ejecutivo en empresas de tecnología global. En Cícladas, fue pionero en el movimiento de software de código abierto y ayudó a establecer el concepto de gestión fuera de banda para la infraestructura del centro de datos. Tiene un título de BSEE de la Universidad de So Paulo. Saito tiene su base en el área de la Bahía de San Francisco.



LO MÁS LEÍDO

Leave a Reply

Your email address will not be published. Required fields are marked *