Ciencia básica al servicio de la tecnología del futuro
Computación. Juan Luis Aragón, de la Fundación Séneca, investiga en Estados Unidos cómo procesar y analizar datos masivos de una forma eficiente
M. J. MORENO
Lunes, 27 de junio 2022, 19:34
En plena era del Big Data, los sistemas de computación de alto rendimiento (HPC por sus siglas en inglés), capaces de procesar datos y realizar cálculos complejos a velocidades muy altas, se emplean tanto para ejecutar aplicaciones de cómputo tradicional, aquellos en los que la información se almacena en el disco duro del ordenador o en un servidor; así como para la ejecución de aplicaciones emergentes que procesan grandes conjuntos de datos. Para ello, a nivel de ciencias de la computación, se necesitan estructuras de datos particulares, como por ejemplo los grafos, que permiten una representación más natural de aquellos datos que no siguen patrones regulares. Algunos ejemplos de aplicaciones que utilizan grafos son las redes sociales (que manejan miles de millones de nodos que representan a millones de usuarios y las continuas interacciones entre ellos), los sistemas de recomendación, el modelado de moléculas de proteínas, los asistentes de condución que emplean mapas de carreteras, o el diseño de circuitos digitales.
Es más, actualmente se ha producido una explosión del tamaño de los datos a gestionar. Sin embargo, las aplicaciones emergentes que trabajan con grafos están plagadas de accesos irregulares a los datos, lo que se traduce en que hacen un uso extremadamente ineficiente del sistema de memoria de los computadores modernos, que ven reducido seriamente su rendimiento cuando ejecutan dichas aplicaciones.
Por tanto, ha surgido la necesidad de ser capaces de procesar y analizar estos datos masivos de una forma eficiente y numerosas empresas tecnológicas, de bolsa, de la banca y comercio electrónico se están adentrando en el campo del análisis masivo de los datos (graphanalytics).
En la Universidad de Princeton (New Jersey, EE UU), se encuentra Juan Luis Aragón, profesor de la Universidad de Murcia, realizando una estancia investigadora financiada por la Fundación Séneca, en el marco del Programa Jiménez de la Espada de Movilidad, Colaboración Internacional e Intercambio de la Región de Murcia. Allí está trabajando en el diseño de un sistema de memoria de alto rendimiento para las aplicaciones emergentes orientadas al análisis masivo de datos, proporcionando una solución para mitigar uno de los principales cuellos de
botella de los sistemas de computación modernos, que no es otro que el acceso eficiente a los datos almacenados en la memoria de los computadores. Como resultado, dice, «se permitirá un acceso a la memoria de baja latencia (esto es, sumamente rápido), con un ancho de banda reducido, consiguiendo además mejorar el rendimiento y la eficiencia energética de los sistemas de computación, que serán capaces de ejecutar de una forma más eficiente las aplicaciones orientadas al análisis masivo de datos».
Propuesta rompedora
A día de hoy su equipo ya tiene algunos resultados preliminares que caracterizan el comportamiento ineficiente del sistema de memoria virtual y cómo los Sistemas Operativos, incluso usando un mecanismo conocido como Páginas Trasparentes Grandes (del inglés, Transparent Huge Pages) son incapaces de funcionar eficientemente cuando hay escasez de memoria. «Nuestra propuesta para mitigar este problema es rompedora y se basa en un mecanismo de promoción selectivo que transforme las páginas básicas (o minipáginas) en páginas grandes pero basado en la frecuencia de acceso a estas, en lugar de basarse en una propiedad tan sencilla como que sean consecutivas», explica. La memoria principal de los ordenadores modernos se divide en áreas denominadas páginas, inicialmente de tamaño pequeño pero que pueden crecer para mejorar el rendimiento. El problema es que estas páginas, ya sean pequeñas o grandes, son zonas de memoria consecutivas. Y las aplicaciones que usan grafos, como aceden a memoria de una forma extremadamente irregular (es decir, a zonas no consecutivas), el uso de páginas grandes suele acabar empeorando el problema.
Esto se debe a que cada página almacena unos pocos nodos del grafo a los que no se va a acceder en el corto plazo y los accesos acaban haciéndose a páginas diferentes cada vez. Este comportamiento tan irregular acaba colapsando la memoria física del sistema, de forma que el proceso de traducción de virtual se convierte en uno de los principales cuellos de botella del mismo. «Nuestra propuesta consiste en detectar las minipáginas más populares, es decir, aquellas que contienen nodos con un gran número de vecinos, con el fin de crear páginas grandes no consecutivas y mayoritariamente conformadas por minipáginas populares», indica. Aragón asegura que «con este mecanismo de promoción selectivo de las páginas se evita la fragmentación interna, y esto se traduce en una mejora significativa del rendimiento. Se ha redactado un artículo de investigación con estos resultados que está actualmente en proceso de revisión».
Esta investigación se enmarca en lo que la ciencia se denomina investigación básica, en este caso en el campo de la arquitectura de computadores, pero que permitirá tener un gran impacto en múltiples campos que abarcan desde las ciencias de la computación al resto de ingenierías donde cada vez se trabaja con conjuntos de datos más grandes y complejos (cuya representación natural son los grafos) y que han de ser procesados de la forma más rápida para tener los resultados en el menor tiempo posible (o incluso en tiempo real).
Aragón lleva varios años colaborando de forma muy activa con la Universidad de Princeton, una de las más prestigiosas a nivel mundial, la cual se encuentra en las primeras posiciones en todos los rankings académicos. Esta investigación le ha permitido realizar varias estancias de investigación en dicha institución para poder colaborar de forma más cercana con el grupo de Margaret Martonosi, líder en el campo de la Arquitectura de Computadores, como lo demuestra el haber recibido recientemente el premio ACM-IEEE Eckert-Mauchly, considerado como el premio Nobel en el campo de la arquitectura de computadores. Además, ha podido participar en el proyecto Decades, con una duración de cinco años y financiado con casi seis millones de dólares por la agencia Darpa del Departamento de Defensa de EE UU, con el fin de desarrollar un chip capaz de acelerar aplicaciones para la era del Big Data. Advierte que «ha sido un trabajo intenso» pero hace unas semanas se recibieron los primeros prototipos de chips fabricados y que ahora están en fase de pruebas. Los resultados preliminares se presentaron en el congreso ISCA, el más importante a nivel mundial en arquitectura de computadores, cuya 49 edición se celebró hace unos días en Nueva York.