IBM Research acaba de establecer un récord mundial en almacenamiento de datos con la construcción de una matriz de unidades capaces de almacenar 120 petabytes. Se hizo a petición de un grupo de investigación que necesita esta cantidad, sin precedentes, de espacio para ejecutar simulaciones. Estas simulaciones se han expandido en tamaño no solo a medida que crecen las bases de datos, sino también con las copias de seguridad y los sistemas redundantes.
¿Cómo lo hacen? Bueno, la parte más fácil fue conectar las 200000 unidades individuales de discos duros que conforman la matriz. Los bastidores con las unidades son extradensos, y la necesidad de refrigeración por agua es imprescindible, más allá de que el hardware es bastante sencillo.
Los problemas surgen cuando se ha de indexar este espacio. Algunos sistemas de archivos tienen problemas con archivos individuales por encima de 4 GB o más, y algunos no pueden manejar un disco más grande que alrededor de 3 TB. Esto se debe a que simplemente no fueron diseñados para ser capaces de rastrear tantos archivos en tan gran espacio. Imagine que su trabajo fuera dar un nombre diferente a todas las personas en el mundo, es fácil al principio, pero después de mil millones aparecen problemas en las permutaciones. Sucede lo mismo con los sistemas de archivos, aunque los modernos son mucho más eficientes en su diseño, que es lo que intentan resolver los investigadores de IBM.
120 petabytes de almacenamiento es una cantidad increíble, ocho veces mayor que los 15 PB ya existentes, y ya se tuvo que lidiar con problemas del espacio de direcciones. En este sistema de IBM el seguimiento de la ubicación y los datos llamando a sus archivos ocupa 2 PB de su propio espacio. Se necesitaría un índice de archivos de próxima generación, el índice del índice!
El sistema de archivos propio que se llama sistema general de archivos paralelos, o GPFS . Está diseñado con grandes volúmenes y el paralelismo masivo en mente: pensar en un RAID de miles de unidades. Los archivos se distribuyen en «bandas» en muchas unidades ya que se tiene que reducir o eliminar en la capacidad de leer y escribir los cuellos de botella, para mejorar el rendimiento. Y vaya que lo realizan: IBM ha creado recientemente un nuevo récord, diez mil millones de archivos indexados en 43 minutos. El récord anterior era de mil millones archivos – en tres horas.
La matriz, construida por IBM’s Storage Systems team at Almaden , será utilizada por el cliente (en este momento anónimo), como parte de una simulación de «fenómenos del mundo real.» Eso implica las ciencias naturales, pero podría ser cualquier cosa, desde las partículas subatómicas a las simulaciones del planeta. Estos proyectos son generalmente aceptados tanto para avanzar en el campo como para proporcionar un servicio.