Les images cosmiques de la plus grande caméra numérique du monde sont si grandes qu'elles nécessitent un «majordome de données»

La quantité de données qui sera collectée par l’Observatoire Vera C. Rubin, qui a publié ses fabuleuses images de premier feu cette semaine, l’emportera de loin sur quel télescope avant de réussir à livrer. Cela a conduit les astronomes à faire un pas dans le cloud computing – ainsi qu’à faire appel à sept courtiers et à un majordome de données.

Une fois qu’il est complètement opérationnel, le Rubin Observatoire (Financé par la US National Science Foundation – Department of Energy) collectera chaque soir 20 téraoctets de données. En analysant ces données, il émettra 10 millions d’alertes aux astronomes, qui seront tous gérés par ce que l’on appelle des « courtiers » qui filtrent le grand nombre d’alertes dans quelque chose de plus gérable.

« En termes de données, nous sommes au moins un ordre de grandeur plus grand que les télescopes précédents », a déclaré à Rubin l’informatique de l’Université d’Édimbourg, George Beckett, qui est le coordinateur des installations de données britanniques pour Rubin, Space.com.

Au cours des 10 prochaines années, l’enquête Héritage de Rubin sur l’espace et le temps s’accumulera à propos 500 pétaoctets de données, équivalent à un demi-million de disques Blu-ray 4K-UHD. Une fois collectés par le télescope, les données seront transmises le long d’un lien de réseau dédié entre Rubin, qui est situé au Chili, et un centre de données au SLAC National Accelerator Laboratory en Californie. À partir de SLAC, une copie de toutes les données brutes sera envoyée à l’installation informatique IN2P3 à Lyon, en France, et certaines des données seront également envoyées à un réseau informatique distribué basé au Royaume-Uni.

Le traitement des données sera partagé entre ces trois centres de données, le SLAC contribuant à 35%, IN2P3 prenant 40% et le Royaume-Uni 25%. (Il existe également un centre de données modeste au Chili, qui héberge l’Observatoire Rubin, pour soutenir les astronomes chiliens.) Non seulement les multiples centres de données fournissent une redondance afin que les données ne puissent pas être perdues dans un accident, mais elles peuvent également se soutenir mutuellement si un centre de données prend du retard sur le traitement. C’est parce que ce qui compte vraiment pour les astronomes, c’est de faire sortir rapidement les données importantes, afin qu’ils puissent suivre des alertes intéressantes dès que possible.

« Mon plus grand défi est d’avoir des astronomes à exiger constamment leurs données! » a plaisanté Beckett.

Cette grande quantité de données sera une ressource précieuse pour les astronomes non seulement dans l’ici et maintenant, mais aussi des décennies dans le futur.

Alors, comment peut-on rechercher tout cela?

Beckett tire une analogie avec la recherche d’une photo prise sur votre smartphone. « Votre téléphone est probablement plein de photos que vous avez prises au cours des cinq ou 10 dernières années, et constater qu’une photo d’il y a deux ans implique généralement de passer à travers et c’est un peu une approche fragmentaire », a-t-il déclaré. « Imaginez maintenant que votre téléphone a 1,5 million de photos et ils sont tous de 10 000 pixels de large, vous n’avez aucune chance de simplement les traverser. »

Retter cette analogie à l’ensemble de données Rubin, la solution, dit Beckett, est de fournir des descriptions accessibles de toutes ces images d’une manière que les astronomes peuvent trouver ce qu’ils recherchent avec une relative facilité. C’est l’une des raisons pour lesquelles la gestion des données de Rubin est différente de celle des télescopes précédents, avec lesquels les astronomes pourraient télécharger des poches de données dont ils ont besoin sans trop de complexité. L’ensemble de données de Rubin est tout simplement trop grand pour télécharger – donc tout est conservé dans le «cloud».

L’ensemble de données Rubin est géré par un service appelé Data Butler. Il enregistre toutes les métadonnées, qui sont les données sur les données – l’heure, la date, les coordonnées du ciel, ce qui est dans l’image et ainsi de suite.

« Un astronome peut proposer à peu près toutes les requêtes qu’ils souhaitent écrire en termes d’astronomie en parlant d’objets astronomiques, de délais ou de systèmes de coordonnées, et le majordome de données récupère ce dont ils ont besoin », a déclaré Beckett.

C’est pour des recherches à plus long terme, mais il y a aussi les transitoires, les objets en mouvement, les choses qui vont se cogner dans la nuit qui ont déclenché des alertes pour inciter les astronomes à les chasser avant que les transitoires ne se fondent. Celles-ci incluent supernovas, kilonovas qui produisent ondes gravitationnellesNovas, Stars Flare, Binaires éclipsés, explosions magnétar, astéroïdes et comètes se déplaçant dans le ciel, quasarset bien plus encore, peut-être même de nouveaux types d’objets jamais vus auparavant. Rubin produira environ 10 millions d’alertes chaque nuit, libérant chaque alerte dans les deux minutes qui ont été détectées par le télescope: même à l’aide de Data Butler, comment les astronomes peuvent-ils passer à travers tous ceux-ci pour trouver les plus importants à suivre?

Il y a sept courtiers, exploités par des scientifiques de différents pays, qui traiteront les 10 millions d’alertes complètes (et deux autres courtiers avec des objectifs scientifiques spécifiques qui ne fonctionneront que sur un sous-ensemble des 10 millions d’alertes quotidiennes). Par exemple, il y a un courtier chilien appelé Alerce, se soutant à l’apprentissage automatique pour la classification rapide des événements, et Antares, l’analyse temporelle de l’Arizona – Noirlab et la réponse aux systèmes d’événements. Le courtier britannique est appelé Lasair (prononcé lah-suhr, signifiant «flamme» ou «flash» en gaélique écossais et irlandais) et se concentre sur les transitoires.

Considérez les courtiers comme un ensemble de filtres que les astronomes peuvent choisir d’aider à parcourir les alertes et à choisir ceux qui les intéressent le plus. Certains courtiers utilisent l’apprentissage automatique et les algorithmes d’intelligence artificielle, mais des méthodes de modélisation plus traditionnelles sont également utilisées pour traiter rapidement les données.

« Les astronomes peuvent s’inscrire à un courtier, décrire le genre de choses qui les intéressent, et espérer qu’avec des descriptions appropriées, les 10 millions d’alertes chaque nuit seront filtrées à peut-être deux ou trois », a déclaré Beckett.

Ce n’est pas que les 9999 998 autres alertes ne sont pas utiles – peut-être qu’ils ne sont pas tout simplement la chose qui l’intéresse, ou peut-être qu’ils ne sont pas assez uniques pour exiger des suivis dédiés, mais ils ajoutent aux statistiques de chaque type d’objet.

Rubin interrogera un quart du ciel de l’hémisphère sud tous les soirs, voyant tout et ne manque rien. On pourrait penser que c’est l’enquête pour mettre fin à toutes les enquêtes, qu’il n’y aura jamais de plus grande enquête qui produira plus de données. Cependant, Beckett travaille également sur l’équipe de gestion des données pour le Tableau de kilomètre carré (SKA), qui est un énorme éventail de radiotélescopes en Afrique du Sud et en Australie, et les techniques développées pour Rubin et les leçons apprises entrent dans la remise des données pour le SKA beaucoup plus fluide.

« La taille de l’ensemble de données de Rubin sera submergée par le SKA, qui sera à nouveau un ordre de grandeur plus grand que Rubin », a déclaré Beckett.

Il y a toujours un plus gros poisson!

Cet article a été initialement publié sur Space.com

Anissa Chauvin

Je m'appelle Anissa, rédactrice passionnée au cœur battant pour Reveil Citoyen Media. Mon parcours, de la plume lycéenne aux salles de rédaction, est guidé par une curiosité insatiable et le désir ardent de révéler les vérités cachées. Chaque article que je rédige est une invitation à réfléchir, à questionner et, surtout, à agir pour un monde meilleur.

Les images cosmiques de la plus grande caméra numérique du monde sont si grandes qu’elles nécessitent un «majordome de données»