Adquisición y Control de Datos
El software de adquisición y control de datos de CMB-S4 (denominado DAQ) deberá controlar y adquirir datos de los 550.000 detectores de alta velocidad, así como de un gran número de sistemas en cada una de las 21 plataformas de telescopios distribuidas en todo el sitio (las propias plataformas del telescopio, así como la criogenia de 100 mK, bombas, bucles de enfriamiento, termometría cálida, calibradores, datos meteorológicos, ajustes de instrumentos, y muchos más). DAQ también desarrollará el sistema de monitoreo en vivo para evaluar el rendimiento del sistema en tiempo real.
Este es un aumento significativo en la complejidad del sistema y la velocidad de datos en comparación con los experimentos CMB de la generación actual, y también debe implementarse por adelantado en los laboratorios con el detector, la lectura y el equipo de prueba del módulo. El sistema DAQ distribuido, de código abierto y de fácil uso para CMB-S4 está diseñado para manejar el mayor número de subsistemas, pruebas de laboratorio y datos de detectores de alta velocidad.
Administración de Datos
Para lograr la sensibilidad necesaria para cumplir con sus objetivos científicos, CMB-S4 debe recopilar un orden de magnitud más de datos que cualquier experimento CMB anterior. La administración de este volumen requerirá en consecuencia ampliar nuestras capacidades de transferencia, almacenamiento, reducción y distribución de datos.
Este volumen de datos está precisamente en línea con el crecimiento exponencial de larga data en los volúmenes de datos suborbitales de CMB, que es perfectamente paralelo a la Ley de Moore en computación. Este gráfico muestra el crecimiento en los volúmenes de datos recopilados por experimentos CMB terrestres (rojos), en globos aerostáticos (verdes) y satelitales (cian) durante un período de 40 años, y en potencia de cálculo (azul-sólido es la Ley de Moore y discontinuo es la proyección del rendimiento actual) durante el mismo período, utilizando el rendimiento máximo de la supercomputadora insignia NERSC en una época como proxy. CMB-S4 está representado por el punto rojo en la esquina superior derecha. Se debe tener en cuenta que mientras que la Ley de Moore está terminando, el crecimiento de los datos de CMB no lo está. Satisfacer nuestras necesidades computacionales para los próximos 15 años en sistemas informáticos cada vez más restringidos representa uno de los principales desafíos para el subsistema de gestión de datos.
Para abordar este desafío, planeamos ensamblar un conjunto de recursos informáticos nacionales e internacionales de clase mundial en una infraestructura general de “superinstalación”. Esto combinará la creación de redes, en conjunto con la Red de Ciencias de la Energía (Esnet, por sus siglas en inglés) y sus socios, la computación de alto rendimiento, en conjunto con el Centro Nacional de Computación Científica de Investigación Energética (NERSC, por sus siglas en inglés) y la Instalación de Computación de Liderazgo Argonne (ALCF, por sus siglas en inglés), computación de alto rendimiento, en conjunto con la Red de Ciencia Abierta (OSG, por sus siglas en inglés) y el Ambiente de Descubrimiento de Ciencia e Ingeniería Extrema (XSEDE, por sus siglas en inglés), y en computación en red, en conjunto con el proyecto FABRIC.
Detectar las pequeñas señales ocultas en este conjunto de datos con alta confianza requiere de un control exquisito de los efectos sistemáticos. Esto se logra en primer lugar minimizando su ocurrencia a través de la optimización del diseño del instrumento y su estrategia de observación, y, en segundo lugar, minimizando su impacto al mitigarlos en la reducción y análisis de los datos. Junto con los grupos de trabajo técnicos y de análisis, el subsistema de administración de datos también desempeña un papel clave en ambos esfuerzos, proporcionando simulaciones para informar estudios comerciales específicos y validar el diseño general del experimento, y desarrollando, implementando y verificando estrategias de mitigación en el tubo de reducción de datos.
El diagrama muestra el flujo planificado de datos (rectángulos) a través de las diversas tuberías de módulos de software (óvalos) para generar mapas y alertas de eventos para su análisis, junto con las interfaces con los otros subsistemas del proyecto, los grupos de trabajo de colaboración y la comunidad científica en general. Los cuadros sombreados representan las áreas de responsabilidad de los diversos subgrupos de gestión de datos. Este trabajo se basa en la experiencia desarrollada durante muchas décadas de gestión de datos CMB en todos los experimentos que se han unido para llevar a cabo el experimento CMB-S4.