Al introducirnos en la ciencia de datos o como investigadores a menudo se pone mucho énfasis en programar y analizar datos, pero antes de trabajar tenemos que tener los datos almacenados en algún sitio. Muchas veces estaremos encargados de desarrollar procedimientos para poder garantizar la integridad de los datos con los que trabajamos y de hacer copias de seguridad para protegerlos de distintas amenazas (que veremos ahora), especialmente si trabajamos en equipos de investigación pequeños o empresas de nueva creación.
A nivel personal también debemos pensar en cómo almacenamos y protegemos nuestros datos de fallos en los dispositivos de almacenamiento. Todos los dispositivos tienen una vida útil, pasado un tiempo es probable que dejen de funcionar. Las habilidades que adquirimos para proteger nuestros datos personales nos pueden servir en entornos profesionales.
Existen muchas circunstancias o eventos que pueden llevarnos a perder datos. Se pueden agrupar en 3 categorías fundamentales: errores de hardware/software, errores provocados por los usuarios y catástrofes.
Debemos desarrollar estrategias de copia de seguridad que nos permitan restablecer la información en caso de que se va afectada por alguna de éstas amenazas.
Errores de hardware/software
Errores de los usuarios
Catástrofes
Existen muchas tecnologías diferentes para almacenar datos. Aquí os presento un resumen de las más importantes, con sus ventajas, inconvenientes y longevidad para que sea posible seleccionar las más adecuadas.
Empezamos por aquellas tecnologías que podemos comprar nosotros mismos para almacenar datos de manera local, sin necesidad de depender de terceros.
HDD (Hard Disk Drive): almacenan los datos en un disco magnetizado que gira a 5.000-7.000 rpm, con una cabeza móvil que realiza las operaciones de lectura / escritura.
Ventajas:
Inconvenientes:
Longevidad: duran en torno a 5-10 años. Todos fallan tras cierto número de horas de funcionamiento (generalmente por desgaste de los elementos mecánicos).
Recomendación: ideales para almacenar muchos datos de forma barata. Usar siempre en aplicaciones estacionarias para evitar daño mecánico: ordenadores de sobremesa o discos externos que no salen de casa. Evitar en portátiles.
Pen drive y tarjetas SD: unidades de almacenamiento externo que se conectan a nuestro ordenador por USB o mediante ranuras específicas. Almacenan la información en chips de memoria flash. Éstos chips utilizan transistores para almacenar los datos.
Los teléfonos móviles también suelen usar chips de memoria flash, pero de mejor calidad.
Ventajas:
Inconvenientes:
Longevidad: depende mucho del dispositivo, pero en general es muy mala. Los chips de memoria flash suelen ser de mala calidad y tienen un número limitado de lecturas y escrituras. Pasado éste limite dejan de funcionar, ya que no suelen tener más de uno.
Recomendación: Vienen bien para transferir información entre dispositivos, o para guardar datos de forma temporal. NO UTILIZARLOS PARA GUARDAR DATOS IMPORTANTES, especialmente si únicamente tenemos una copia.
SSD (Solid State Drive): Al igual que los pen drives utilizan chips de memoria flash para almacenar los datos, pero generalmente tienen varios y de mayor calidad, lo que aumenta mucho la durabilidad.
Ventajas:
Desventajas:
Longevidad: en torno a 5-10 años. Al tener más chips flash y distribuir las escrituras sobre ellos tienen una durabilidad mucho mayor que un pen drive, manteniendo todas las ventajas. La operación que degrada éstos dispositivos es la escritura de datos, las lecturas o el tiempo de funcionamiento no tienen efecto sobre su vida útil.
Recomendación: no comprar NUNCA un ordenador que no tenga el sistema operativo instalado en un SSD. Es recomendable adquirir un SSD externo para hacer copias de manera rápida al mismo.
Discos blu-ray: son un medio de almacenamiento óptico, que almacena la información en discos de policarbonato. Se comercializan en capacidades de 25, 50 y 100 GB.
Ventajas:
Desventajas:
Longevidad: en torno a 80-100 años sobre el papel. No han existido el tiempo suficiente como para comprobarlo, pero si se almacenan correctamente pueden durar mucho tiempo.
Recomendación: dado que seguramente tendremos que comprar una unidad para grabarlos puede ser algo caro, además de que el acceso a los datos es lento y menos cómodo que en otras tecnologías al tener que manejar los discos. No obstante, si tenemos menos de 25 o 50 GB de datos podríamos hacer copias (anuales o cada X años) de todos nuestros datos a uno de éstos discos como archivo a largo plazo.
DAS (Direct Attached Storage) y NAS (Network Attached Storage): hasta ahora hemos visto que tanto los HDD como los SSD tienen un tiempo de vida limitado, pasado el cual es probable que fallen y perdamos la información.
Por tanto, la única manera de protegernos contra la pérdida de datos es tener varias copias de los datos, para que cuando un disco falle podamos seguir disponiendo de la información.
Los DAS y los NAS son dispositivos que básicamente permiten sistematizar el proceso mediante lo que se conoce como un RAID (Redundant Array of Independent Disks). Un RAID es básicamente una única unidad de almacenamiento que se compone de varios discos que almacenan la información con diferentes niveles de replicación. Por ejemplo, imaginemos que tenemos un NAS con 4 discos de 10 TB cada uno (40 TB de capacidad total), podríamos elegir entre varias configuraciones:
La diferencia entre DAS y NAS es que los DAS son dispositivos que se conectan directamente a nuestro ordenador (por ejemplo mediante un cable USB), mientras que un NAS se conecta a través de la red (mejor si es por cable, pero se puede acceder a los archivos por wifi). Así, un NAS permite crear unidades compartidas entre varios dispositivos para almacenar archivos de forma segura.
Ventajas:
Inconvenientes:
Longevidad: ya lo hemos comentado, potencialmente ilimitada, pero tenemos que cambiar los discos y asegurarnos de que el sistema está en un lugar seguro.
Recomendación: para la mayoría de las personas no es necesaria una solución de éste tipo. Sí son muy recomendables para empresas pequeñas y medianas, ya que son una manera muy asequible de almacenar datos de manera fiable. Aún así, para particulares puede merecer la pena en alguno de éstos casos:
También podemos recurrir a diferentes servicios en la nube para hacer copias de nuestros datos. Puede ser más cómodo, pero tenemos el problema de que debemos confiar en que nuestro proveedor respetará nuestra privacidad y que tiene la seguridad en regla (para evitar que terceros accedan a nuestros datos).
Algunas opciones son:
Muchos de éstos servicios ofrecen clientes que permiten sincronizar los datos entre varios equipos, para poder disponer de una copia de los datos en todos nuestros equipos. Cada vez que cambiamos un archivo en un equipo, se propagan los cambios en todos.
Si no le tenemos miedo a la línea de comandos, podemos utilizar rclone para sincronizar nuestros datos en la nube. Ésto nos permite acceder a servicios de almacenamiento enfocados a desarrolladores, que son más baratos.
En términos generales, la opción más barata y que mejor funciona es comprar un SSD externo para hacer copias periódicas de nuestros datos al mismo.
Procurar evitar utilizar pen drives como parte de nuestra estrategia de copias de seguridad ya que no son nada fiables.
Si tenemos entre 20-100 GB de datos, también puede ser útil adquirir una grabadora de blu-ray. Cada X años podemos hacer una copia de nuestros datos más importantes a un disco nuevo, y así tendremos varias. También es buena idea almacenar alguna de éstas copias en una ubicación remota (nuestra oficina, la casa de un familiar…)
Si tenemos muchos datos, lo mejor es invertir en un NAS. Son una muy buena solución para pequeñas empresas y startups.
También es interesante hacer copias a algún servicio en la nube, pero debemos considerar la privacidad y la seguridad de nuestros datos. Conviene encriptar la información que subimos a la nube.
Para hacer copias de seguridad, es recomendable utilizar borg backup. Borg es una utilidad de línea de comandos que permite copiar periódicamente los datos de un directorio a lo que llaman un repositorio. Éstos repositorios nos ofrecen dos ventajas importantes: