Deduplicación de datos es un proceso en el que se eliminan copias redundantes de información, reduciendo en última instancia los costos operativos de almacenamiento de esta información. Con esta tecnología, puede optimizar la capacidad de cualquier almacén de datos.
Independientemente del método, la deduplicación le permite guardar solo una información única en los medios. Por lo tanto, uno de los puntos más importantes en la deduplicación es el nivel de detalle.
La deduplicación de datos tiene varios niveles de ejecución:
- bytes;
- archivos;
- bloques.
Cada uno de estos métodos tiene sus propios lados positivos y negativos. Echemos un vistazo a ellos con más detalle.
Almacenamiento en la nube híbrida
Métodos de deduplicación de datos
Nivel de bloque
Se considera el método de deduplicación más popular e implica analizar una parte de los datos( un archivo), con una mayor preservación de solo repeticiones únicas de información para cada bloque individual.
En este caso, se considera que un bloque es una unidad lógica de información con un tamaño característico, que puede variar. Todos los datos en la deduplicación a nivel de bloque se procesan mediante hash (por ejemplo, SHA – 1 o MD5).
Los algoritmos Hash le permiten crear y almacenar una firma específica (identificador) en la base de datos de deduplicación, que corresponde a cada bloque de datos único individual.
Entonces, si el archivo se cambia durante un cierto período de tiempo, no todo el archivo ingresará al almacén de datos, sino solo sus bloques modificados.
Hay 2 tipos de deduplicación de bloques, con longitudes de bloque variables y constantes. La primera opción implica distribuir archivos en bloques, cada uno de los cuales puede tener un tamaño diferente.
Esta opción es más efectiva en términos de reducir la cantidad de datos almacenados que cuando se usa la deduplicación con una longitud de bloque constante.
Nivel de Archivo
Este método de deduplicación implica comparar un archivo nuevo con uno ya guardado. Si aparece algún archivo único, se guardará. Si el archivo que encuentra no es nuevo, solo se guardará el enlace (un puntero a este archivo).
Es decir, con este tipo de deduplicación, solo se graba una versión del archivo y todas las copias futuras recibirán un puntero al archivo original. La principal ventaja de este método es la facilidad de implementación sin una degradación grave del rendimiento.
Nivel de bytes
En principio, es similar al primer método de deduplicación de nuestra lista, pero en lugar de bloques, aquí se usa una comparación byte a byte de archivos antiguos y nuevos. Esta es la única forma en la que puede garantizar la máxima eliminación de archivos duplicados.
Sin embargo, la deduplicación a nivel de bytes también tiene una desventaja significativa: el componente de hardware de la máquina en la que se ejecuta el proceso debe ser extremadamente potente, ya que se le imponen requisitos más altos.
Deduplicación y copia de seguridad de datos
Además de todo lo anterior, en el proceso de creación de una copia de seguridad de los datos, la deduplicación se puede realizar mediante diferentes métodos:
- el lugar de ejecución;
- la fuente de datos (cliente);
- el lado del almacenamiento (servidor).
Deduplicación cliente-servidor
Un método combinado de deduplicación de datos, en el que los procesos necesarios se pueden ejecutar tanto en el servidor como en el cliente. Antes de enviar datos del cliente al servidor, el software primero intenta “comprender” qué datos ya se han grabado.
Para dicha deduplicación, inicialmente es necesario calcular el hash para cada bloque de datos y luego enviarlos al servidor como un archivo de lista de varias claves hash. Se compara una lista de estas claves en el servidor y luego se envían bloques con datos al cliente.
Este método reduce significativamente la carga en la red, ya que solo se transmiten datos únicos.
Deduplicación en el cliente
Implica realizar una operación directamente en la fuente de datos. Por lo tanto, con dicha deduplicación, estará involucrada la potencia informática del cliente. Una vez finalizado el proceso, los datos se enviarán a los dispositivos de almacenamiento.
Este tipo de deduplicación siempre se implementa mediante software. Y la principal desventaja del método descrito es la alta carga en la RAM y el procesador del cliente. La ventaja clave radica en la capacidad de transferir datos a través de una red de bajo ancho de banda.
Deduplicación en el servidor
Se utiliza cuando los datos se envían al servidor en forma completamente cruda, sin codificación ni compresión. Este tipo de deduplicación se divide en software y hardware.
Tipo de Hardware
Se implementa sobre la base de un dispositivo de deduplicación, que se proporciona en forma de una solución de hardware específica que combina la lógica de deduplicación y el procedimiento de recuperación de datos.
La ventaja de este método es la capacidad de transferir la carga de las capacidades del servidor a una unidad de hardware específica. El proceso de deduplicación en sí mismo obtiene la máxima transparencia al mismo tiempo.
Tipo de programa
Implica el uso de un software especial que, de hecho, realiza todos los procesos de deduplicación necesarios. Sin embargo, con este enfoque, siempre es necesario tener en cuenta la carga en el servidor que se producirá durante el proceso de deduplicación.
Ventajas y desventajas
Los aspectos positivos de la deduplicación como proceso incluyen los siguientes puntos:
- Alta eficiencia. Según la investigación de EMC, el proceso de deduplicación de datos reduce la necesidad de capacidad de almacenamiento entre 10 y 30 veces.
- Los beneficios de usarlo con bajo ancho de banda de red. Esto se debe a la transferencia de datos exclusivamente únicos.
- La capacidad de crear copias de seguridad con más frecuencia y almacenar copias de seguridad de datos durante más tiempo.
Las desventajas de la deduplicación incluyen:
- La posibilidad de un conflicto de datos si un par de bloques diferentes generan la misma clave hash al mismo tiempo. En este caso, la base de datos puede estar dañada, lo que provocará un error al restaurar desde una copia de seguridad.
- Cuanto mayor sea el volumen de la base de datos, mayor será el riesgo de una situación de conflicto. La solución al problema es aumentar el espacio hash.