Un sistema de almacenamiento de datos (DSS) es un complejo de hardware y software que está diseñado para almacenar y procesar información, generalmente de gran volumen. La información son archivos, incluidos medios, datos estructurados (DBMS) y no estructurados( big data), copias de seguridad, archivos. Los discos duros se utilizan como medios de almacenamiento, principalmente SSD (All Flash Array systems), así como soluciones híbridas que combinan unidades SSD y HDD en un solo almacenamiento.
Los sistemas de almacenamiento difieren de un disco duro personalizado en su arquitectura compleja, la capacidad de combinar el almacenamiento en una red de datos, la disponibilidad de software separado para administrar el sistema de almacenamiento, tecnologías avanzadas de respaldo, compresión y virtualización.
Los sistemas de almacenamiento de datos difieren en varios parámetros, cuya elección determina el uso del almacenamiento.
Seleccione almacenamiento
Niveles de almacenamiento
Almacenamiento en bloque
El almacenamiento se usa como un disco normal, que el sistema operativo puede formatear, instalar en él y crear discos lógicos. Los datos no se almacenan en archivos, sino en bloques, lo que acelera las operaciones de E/S. Se usa con mayor frecuencia en redes de tipo SAN (Storage Attached Network). Es adecuado para computación de alto rendimiento, DBMS, almacenamiento de grandes cantidades de datos, como entornos de desarrollo(Dev / Test). De las desventajas: a) la complejidad de la instalación y el mantenimiento, que requieren calificaciones adecuadas; b) alto costo.
Almacenamiento de Archivos
Los datos se almacenan como archivos que se colocan en directorios. Dicho almacenamiento se utiliza para almacenar información “fría” que no es necesaria para los cálculos operativos. El NAS (almacenamiento conectado a la red) generalmente se basa en almacenamientos de archivos. Desventajas: con la acumulación de grandes cantidades de datos, la jerarquía de carpetas se vuelve más complicada y la velocidad de operación de almacenamiento disminuye gradualmente. No es adecuado para cargas que requieren una alta tasa de respuesta.
Almacenamiento de Objetos
Un tipo de almacenamiento que se enfoca en trabajar con grandes datos no estructurados de hasta petabytes de tamaño. La información se almacena no como archivos, sino como “objetos” con un identificador único y metadatos. Por lo tanto, el almacenamiento de objetos es similar en estructura a una base de datos. Se utiliza en análisis, big data, aprendizaje automático, para almacenar archivos multimedia “pesados” y copias de seguridad, desarrollar y operar aplicaciones en la nube y alojar sitios web. En términos de velocidad, es inferior al almacenamiento en bloque en tareas relacionadas con cargas transaccionales.
Acceso a la red
NAS (almacenamiento conectado a la red)
Un servidor de archivos que está conectado a la red local. El acceso al almacenamiento en disco se organiza a través de protocolos NFS (en sistemas UNIX / Linux)o CIFS(Windows). El NAS se utiliza para trabajar con datos de tipo archivo que necesitan acceso simultáneo colectivo, por ejemplo, a documentos compartidos de Word y Excel. El NAS funciona “encima” de una LAN existente, a través de conmutadores/enrutadores compartidos.
SAN (red de área de almacenamiento)
Una red que es adecuada para usar diferentes tipos de almacenamiento (discos, unidades ópticas, matrices de cintas), pero que el sistema operativo percibe como un único almacén de datos lógicos o como un disco lógico de red. Protocolos: iSCSI (IP-SAN) y Fibrecanal (FC). Los adaptadores HBA (Adaptador de bus de host) se utilizan para conectar computadoras. La SAN utiliza principalmente un tipo de almacenamiento de datos en bloque.
La separación SAN/NAS ya no es tan estricta como lo era a principios de la década de 2000, ya que con la llegada del protocolo iSCSI, los fabricantes comenzaron a producir soluciones híbridas.
Tolerancia a fallos
Para evaluar la capacidad de un sistema de almacenamiento para recuperarse de fallas, se utilizan dos indicadores — RPO y RTO.
RPO (objetivo de punto de recuperación)
El período durante el cual se perderán los datos es entre el momento del accidente y el momento en que se creó la última copia de seguridad. Si el RPO es igual a 12 horas, si falla el almacenamiento, se pueden perder los datos acumulados durante las últimas 12 horas. RPO afecta la elección de la tecnología de recuperación ante desastres y depende del costo de perder una cantidad específica de datos.
RTO (objetivo de tiempo de recuperación)
El tiempo que lleva restaurar el acceso al almacenamiento. El valor RTO es importante para estimar el costo del tiempo de inactividad del sistema.
Respaldo
La frecuencia de copias de seguridad se selecciona en función de las tareas específicas y el nivel de protección requerido. Lo mismo se aplica a la ubicación: los datos de trabajo y su copia de seguridad se pueden almacenar en almacenamiento distribuido geográficamente (por ejemplo, en centros de datos ubicados en diferentes países e incluso continentes).
Además de las copias de seguridad, se realizan instantáneas — instantáneas que se utilizan para revertir a la última versión funcional del sistema.
Deduplicación se utiliza para que las copias de seguridad ocupen menos espacio. En este caso, solo se copian en la copia los datos que han cambiado. La diferencia entre las copias de seguridad no supera el 2% en promedio, por lo que la deduplicación ayuda a ahorrar espacio en disco.
Cómo elegir un sistema de almacenamiento
En primer lugar, debe comprender qué tareas resolverá. Antes de ponerse en contacto con el proveedor( o integrador), debe determinar varios parámetros básicos.
Tipo de datos
Los diferentes tipos de datos requieren diferentes velocidades de acceso, tecnologías de procesamiento, compresión, etc. Por ejemplo, un sistema de almacenamiento para trabajar con archivos multimedia grandes difiere de uno que es adecuado para trabajar con un DBMS transaccional, o de un sistema que funcionará con datos no estructurados para una red neuronal.
La cantidad de datos
La elección de las unidades de disco depende de esto. A veces puede hacerlo con un SSD de nivel de consumidor, si sabe que la capacidad de almacenamiento, incluso en el peor de los casos, no superará los 300 GB, y la velocidad de acceso no es crítica.
Tolerancia a fallos
Es necesario imaginar cuál es el costo de la pérdida de datos durante un cierto período de tiempo. Esto le ayudará a calcular el RPO y el RTO, así como a evitar costos innecesarios de respaldo.
Eficiencia
Si el almacenamiento se está comprando para un nuevo proyecto (servicio), cuya carga es difícil de juzgar, es mejor comunicarse con colegas que ya han resuelto este problema. O póngase en contacto con un proveedor experimentado que ya haya lanzado proyectos similares. La opción ideal es probar el almacenamiento.
Vendedor
A veces, incluso una solución de bajo costo o de nivel medio (StarWind, Huawei, Fujitsu) es adecuada para un servicio que consume muchos recursos. Sin embargo, los principales fabricantes — NetApp, HPE, Dell EMC: tienen una línea de productos bastante amplia, y aquí también se pueden encontrar sistemas de almacenamiento relativamente económicos. En cualquier caso, es aconsejable no ampliar en gran medida el número de proveedores en la misma infraestructura.