View in

English

L’expérience CMS au CERN publie un cinquième ensemble de données ouvertes

Les données des collisions proton-proton enregistrées par CMS pendant les deux premières années de fonctionnement du LHC sont maintenant à la disposition du public

|

Artistic rendition of the CMS detector
Vue d’artiste du détecteur CMS faite de lignes de signaux analogiques (Image: Achintya Rao/CERN)

La collaboration CMS au CERN a publié en accès libre 18 nouveaux ensembles de données, comprenant les données relatives aux collisions proton-proton enregistrées par le détecteur CMS auprès du LHC pendant le second semestre 2011. Les données du LHC sont uniques en leur genre et revêtent un grand intérêt tant pour la communauté scientifique que pour le milieu éducatif. Il est crucial de préserver ces données et les compétences nécessaires à leur analyse. Par conséquent, l’équipe CMS s’est engagée à donner libre accès à ses données de recherche, rendues progressivement publiques, si bien qu’elles seront disponibles dans leur quasi-intégralité dix ans après leur enregistrement. Ce délai donne aux scientifiques de l’expérience CMS le temps d’analyser eux-mêmes les données.

Cette récente publication de données représente un volume de 96 téraoctets. L’ensemble de données complète les données enregistrées au premier semestre 2011, publiées en 2016. La publication comprend également des outils, des flux de travail et des exemples supplémentaires, ainsi qu’une documentation plus riche permettant une analyse de données fondée sur l’informatique en nuage. Les données et les documents correspondants sont disponibles en ligne sur le Portail des données ouvertes du CERN (CERN Open Data ), un système d’archivage de données en accès libre basé sur le logiciel open source conçu par le CERN, Invenio.

Les années précédentes, l’expérience CMS avait publié toutes les données enregistrées en 2010 et la moitié des données recueillies en 2011 et 2012 (correspondant à la première période d’exploitation du LHC). Des ensembles spécifiques de données dérivées destinés, pour certains, au milieu éducatif et, pour d’autres, au secteur de la science des données, ont permis aux curieux du monde entier de « redécouvrir » le boson de Higgs dans les données ouvertes de CMS. Des scientifiques ne participant pas à l’expérience ont ainsi pu faire paraître des articles s’appuyant sur les données de CMS.

Par le passé, les scientifiques souhaitant analyser les données ouvertes relatives à CMS devaient installer un logiciel sur une machine virtuelle afin de recréer l’environnement d’analyse adapté. De ce fait, il leur était difficile de procéder à une analyse exhaustive des données à des fins de recherche car cela supposait des ressources informatiques considérables. Or, parallèlement à la publication du nouvel ensemble de données, CMS a mis à jour la documentation portant sur l’utilisation de conteneurs, ces paquets logiciels contenant tous les logiciels pré-installés et permettant des flux de travail supplémentaires. Ainsi, les données peuvent être facilement analysées dans le nuage, que ce soit dans le cadre d’une université ou en recourant aux services d’un fournisseur. Certains de ces nouveaux flux de travail sont également intégrés à REANA, la plateforme du CERN permettant la réutilisation des analyses.

Dans le but d’améliorer l’offre de services, les équipes de CMS et du Portail de données ouvertes du CERN coopèrent étroitement avec les utilisateurs actuels et potentiels de ces données, dans l’enseignement secondaire, dans l’enseignement supérieur et dans le monde de la recherche. La fonctionnalité de recherche du portail a été modernisée grâce aux avis formulés par les enseignants ayant participé à des ateliers sur ces sujets au CERN les années précédentes. Quant au contenu de la documentation, il a été amélioré grâce à des entretiens avec les utilisateurs des données. Enfin, un nouveau forum a été mis en ligne pour apporter à ces derniers un appui technique. En septembre prochain, la collaboration CMS organisera un atelier en ligne destiné aux physiciens théoriciens souhaitant utiliser les données ouvertes.

« Nous sommes enchantés de pouvoir mettre à la disposition du public ces nouvelles données et ces nouveaux outils issus de l’expérience CMS », déclare Kati Lassila-Perini, qui co-dirige le projet de préservation des données et de diffusion des données ouvertes de CMS depuis sa création. « Nous avons hâte de voir quel accueil la communauté des utilisateurs, qu’ils appartiennent au monde de l’éducation ou de la recherche, va réserver aux mesures que nous avons prises pour améliorer la facilité d’utilisation de nos données publiques. »

______

Pour en savoir plus, consultez la page relative à la dernière publication de données ouvertes de CMS sur le Portail des données ouvertes du CERN : opendata.cern.ch/docs/cms-completes-2010-2011-pp-data.