Webinar
ITGLOBAL.COM events
Tolerancia a fallos

La tolerancia a fallas es la propiedad de cualquier equipo o sistema para permanecer operativo después de la falla de uno o más componentes.

La fiabilidad de un sistema tolerante a fallos se caracteriza por el número de nueves. Por ejemplo, cualquier página web garantiza un funcionamiento estable en el 99% de los casos, y la base de datos de una organización a nivel de Sberbank garantiza el 99,9999%.

Especificaciones

Un sistema tolerante a fallos se caracteriza por la presencia de elementos redundantes. Convencionalmente, pertenecen a los siguientes tipos:

1. La parte del software. La presencia de una aplicación idéntica en cada módulo del sistema de información. Es obligatorio contar con un software de control que monitoree el estado de cada nodo y redirija la carga.

Un ejemplo sorprendente es el esquema de agrupación en clústeres basado en el módulo Cluster de Veritas. Si un elemento falla, la aplicación lo desconecta del clúster y redistribuye la carga al resto.

2. La parte de hardware. Es similar al anterior, pero aquí la redundancia ocurre a nivel de módulos lógicos o equipos. Por ejemplo, un sistema de almacenamiento de datos tiene elementos duplicados: dos controladores, dos fuentes de alimentación, dos adaptadores de red, etc. Si uno de los módulos falla, la carga se distribuye al segundo.

La redundancia a nivel de hardware implica la presencia de varios dispositivos con características similares. Un ejemplo es un servidor de alta densidad con nodos informáticos instalados en su interior.

3. La parte resistente a los desastres. Este tipo de reserva se proporciona solo para sistemas de misión crítica, ya que está asociado con altos costos financieros y la disponibilidad de especialistas calificados.

El esquema de redundancia se traslada a la escala de los centros de datos. Se están construyendo infraestructuras similares en dos sitios diferentes. Se establece la comunicación entre ellos y luego se utiliza un software especializado.

El primer software de este tipo fue creado por NetApp, conocida por sus innovaciones tecnológicas en el campo de los sistemas de almacenamiento de datos. El proveedor ha desarrollado un producto MetroCluster que reserva por completo todos los componentes del centro de datos en un sitio remoto. Incluso si uno de los centros de datos se apaga por completo, el segundo se recuperará por completo en unos segundos.

Para construir sistemas tolerantes a fallas, primero se audita la infraestructura actual del cliente para identificar vulnerabilidades.

El siguiente paso determina los riesgos en caso de pérdida de uno de los elementos de infraestructura. Se consideran diferentes variantes de eventos, en los que el cliente sufrirá pérdidas máximas. Sobre la base de la información recibida, se está desarrollando un esquema para construir un sistema tolerante a fallas de los elementos necesarios. Como resultado, se le brinda al cliente una solución integral que cubrirá los riesgos tanto como sea posible a un costo aceptable.

La tolerancia a fallos es un indicador importante de cualquier sistema de información. La redundancia puede ocurrir en diferentes niveles de la IP, comenzando con el software y terminando con el centro de datos.

Utilizamos cookies para optimizar la funcionalidad del sitio web y mejorar nuestros servicios. Para obtener más información, consulte nuestra Política de privacidad.
Configuración de cookies
Cookies estrictamente necesarias
Cookies analíticas