En el mundo de las TI, la continuidad de la actividad lo es todo. La disponibilidad de recursos es primordial para garantizar que las operaciones informáticas se lleven a cabo sin contratiempos. Esto es lo que intenta garantizar la alta disponibilidad. Pero, ¿qué es exactamente la alta disponibilidad? Este artículo definirá el concepto y esbozará los factores que hacen que la alta disponibilidad sea beneficiosa para los equipos de TI y las organizaciones.
¿Qué es la alta disponibilidad?
La alta disponibilidad se refiere al estado de un sistema, elemento, componente o cualquier cosa relacionada con el funcionamiento continuo sin interrupción. Este concepto pretende ofrecer un rendimiento óptimo y de calidad durante un tiempo determinado, garantizando la continuidad de la actividad y un tiempo de inactividad mínimo.
¿Qué son los sistemas de alta disponibilidad (sistemas HA)?
Los sistemas de alta disponibilidad (sistemas HA) se refieren a sistemas que emplean diversas técnicas y estrategias para lograr una alta disponibilidad en un entorno determinado. Los sistemas de alta disponibilidad constan de componentes vitales que trabajan juntos para garantizar la prestación ininterrumpida de servicios. Son los siguientes:
- Redundancia: los sistemas de alta disponibilidad refuerzan la redundancia al disponer de sistemas o componentes de reserva que pueden tomar el relevo si el sistema principal sufre un fallo.
- Failover: el factor de failover se refiere al proceso de transferir todas las funciones a un sistema redundante en los casos en que el sistema primario no puede funcionar o deja de estar disponible.
- Tolerancia a fallos: los sistemas de alta disponibilidad deben tener tolerancia a fallos para garantizar la continuidad de las operaciones a pesar de la indisponibilidad del hardware o el software causada por fallos del sistema.
- Equilibrador de carga: el equilibrador de la carga es la capacidad de los sistemas de alta disponibilidad para distribuir las cargas de trabajo con el fin de evitar una sobrecarga que pueda provocar un fallo disruptivo. Esto también favorece la eficiencia del sistema, garantizando que las cargas de trabajo se distribuyan de forma que no sobrecarguen los recursos del sistema.
- Tiempo de actividad: el tiempo de actividad se refiere al porcentaje de tiempo que un sistema está operativo y disponible para su uso. Dicta la eficacia de los sistemas de alta disponibilidad.
¿Cómo se mide la alta disponibilidad?
La alta disponibilidad se mide mediante métricas esenciales e indicadores clave de rendimiento (KPI) que muestran la eficiencia de un sistema de alta disponibilidad.
1. Métricas de alta disponibilidad (métricas HA)
Las métricas de alta disponibilidad son puntos de datos brutos que miden el rendimiento y la eficiencia de un sistema, proporcionando un contexto esencial para cuantificar cómo funciona un sistema y cómo responde a diversas condiciones. Las métricas de HA son las siguientes:
- Porcentaje de tiempo de actividad. Medida que expresa la disponibilidad de un sistema en función del porcentaje de tiempo que está accesible y operativo.
- Tiempo medio entre fallos (MTBF). Se refiere al tiempo medio que un sistema pasa indisponible debido a un fallo del sistema.
- Tiempo medio de reparación (MTTR). Esta métrica mide el tiempo medio que se tarda en reparar un fallo del sistema y volver a ponerlo en marcha.
- Tiempo de respuesta. Medida que dicta la rapidez con la que un sistema responde a una solicitud.
- Rendimiento. Mide el número de transacciones que un sistema puede procesar en un tiempo determinado.
- Utilización de los recursos. Esta métrica mide la eficiencia con la que se utilizan los recursos del sistema.
- Tasa de error. Se refiere a la medición que muestra la frecuencia con la que se producen errores.
- Pérdida de datos. Esta métrica se refiere a la cantidad cuantitativa de datos perdidos durante un fallo del sistema.
2. Indicadores clave de rendimiento de alta disponibilidad (KPI de la HA)
Derivados de las métricas, los indicadores clave de rendimiento de alta disponibilidad (KPI de HA) son mediciones que se alinean con los objetivos de una organización, proporcionando información procesable que se puede utilizar para dictar las siguientes acciones que una organización debe tomar para optimizar el rendimiento del sistema y alcanzar los objetivos empresariales. He aquí algunos elementos clave de los KPI de la HA:
- Acuerdos de nivel de servicio (SLA). Se trata de compromisos contractuales de nivel de servicio con el cliente.
- Satisfacción del cliente. Esta medida se refiere al nivel de satisfacción de los usuarios finales (clientes) del sistema con su rendimiento general.
- Objetivo de tiempo de recuperación (RTO). RTO, u Objetivo de Tiempo de Recuperación, es una medida que expresa el tiempo de inactividad máximo permitido para un sistema, limitando una duración aceptable durante la cual un sistema puede no estar disponible debido a una interrupción del servicio.
- Objetivo de Punto de Recuperación (RPO). Este KPI define la cantidad máxima de pérdida de datos que se puede tolerar debido a un fallo del sistema.
Cuantificación de la alta disponibilidad
La alta disponibilidad suele cuantificarse utilizando un sistema de “nueves” (9) para representar el porcentaje de tiempo de actividad. Cada “nueve” añadido al número significa un mayor nivel de fiabilidad, lo que expresa un menor potencial de tiempo de inactividad. He aquí un desglose:
- Dos nueves (99%): el sistema está disponible el 99% del año, lo que equivale a unos 3,65 días de inactividad.
- Tres nueves (99,9%): este nivel indica un tiempo de actividad del 99,9% o unas 8,76 horas de inactividad al año.
- Cuatro nueves (99,99%): esto representa un 99,99% de tiempo de actividad, lo que se traduce en aproximadamente 52,6 minutos de tiempo de inactividad al año.
- Cinco nueves (99,999%): se trata de un nivel de disponibilidad muy alto, que sólo permite unos 5,26 minutos de inactividad al año.
- Seis nueves (99,9999%): un estándar extremadamente alto, con sólo 31,5 segundos de inactividad permitidos al año.
Estrategias para garantizar una alta disponibilidad
Aplicar una alta disponibilidad en los sistemas supone emplear técnicas esenciales para lograr la máxima eficacia. He aquí algunas estrategias que pueden ayudar a lograr la resistencia del sistema, la fiabilidad y la continuidad de las operaciones:
1. Agrupación en clústeres y equilibrio de carga
Mientras que la agrupación en clústeres es una estrategia que agrupa servidores en un único sistema para maximizar la tolerancia a fallos y la escalabilidad, el equilibrio de carga distribuye el tráfico entrante entre varios servidores y ayuda a mantener el rendimiento óptimo de un sistema evitando su sobrecarga y mejorando el tiempo de respuesta.
2. Estrategias de redundancia
Estas técnicas incluyen la redundancia de hardware o duplicación de los componentes físicos del sistema, la redundancia de software o uso de múltiples instancias de software en caso de avería, y la redundancia de datos, que se refiere a la creación de múltiples copias de datos para reducir los riesgos de pérdida de datos.
3. Mecanismos de conmutación por error
Estas estrategias se ocupan de las conmutaciones o transferencias de funciones a un sistema de trabajo en caso de que el sistema primario no esté disponible. Los mecanismos de conmutación por error incluyen la conmutación por error manual, en la que el cambio del sistema a una copia de seguridad se realiza manualmente, lo que requiere la intervención humana, y la conmutación por error automática, en la que la transferencia de las operaciones a los sistemas de reserva se produce automáticamente.
Otras estrategias de este mecanismo son la conmutación por error planificada, en la que se impone el cambio programado a otro sistema, y la conmutación por error no planificada, que desencadena un cambio a la copia de seguridad.
4. Recuperación en caso de catástrofe y continuidad de la actividad
Estas dos estrategias funcionan conjuntamente para evitar fallos operativos e intervenciones en el flujo de trabajo. La recuperación en caso de catástrofe permite a los sistemas restaurar los recursos tras un incidente perjudicial, lo que mejora la prevención de la pérdida de datos. Mientras tanto, las técnicas de continuidad del negocio permiten que las funciones empresariales continúen durante y después de las interrupciones del sistema.
5. Replicación de datos y copias de seguridad
Por último, la replicación de datos y las copias de seguridad protegen a las organizaciones de la pérdida de datos críticos. Para ello, se crean copias de seguridad de los datos importantes que son fácilmente recuperables en caso de que los datos se pongan en peligro o se pierdan. Estos datos pueden almacenarse en varias ubicaciones para garantizar la redundancia y la accesibilidad.
¿Cuáles son los retos de mantener una alta disponibilidad?
Los equipos de TI encargados de emplear y mantener una alta disponibilidad de los sistemas pueden encontrarse con dificultades a la hora de implantar, gestionar y optimizar sistemas y procesos redundantes. He aquí algunos de los retos con los que pueden encontrarse:
- Complejidad. Desde la creación de un sistema hasta el mantenimiento de su alta disponibilidad, los equipos de TI pueden enfrentarse a empresas complejas, lo que dificulta el diseño, el despliegue y la gestión de sistemas de HA.
- Coste. La creación de un sistema de alta disponibilidad puede disparar los costes de las organizaciones. Además de la costosa instalación debida al hardware y software caros, tareas como las pruebas, el mantenimiento, la gestión y todo lo que requiera que alguien opere y supervise el sistema puede aumentar los costes iniciales y continuos.
- Error humano. Casos inevitables como el error humano pueden convertirse en un reto, especialmente cuando la configuración del sistema, el mantenimiento o la resolución de problemas son erróneos.
- Impacto en el rendimiento. Las configuraciones de sistemas de alta disponibilidad también son susceptibles de sufrir problemas de rendimiento. Pueden introducir desafíos que pueden implicar latencia o sobrecarga, afectando al rendimiento del sistema.
La importancia de la alta disponibilidad
Mantener una alta disponibilidad es primordial para la continuidad del negocio y la gestión eficaz de las crisis. Su valor en retrospectiva para los objetivos de la organización es indispensable porque puede evitar casos impactantes como la ralentización del rendimiento, la pérdida de datos y el tiempo de inactividad perturbador. Aunque mantener una alta disponibilidad puede suponer un reto debido a algunos factores, aspirar a conseguir sus objetivos principales sin duda ayudará a fomentar la excelencia operativa, la satisfacción del cliente y el éxito general de la empresa.