 Et c'est des grandes données et des sciences. Des grandes données ont été quelque chose... Le Big Data est partout, chaque discipline a... De la Big Data maintenant, donc le Tokyo a travaillé pour SIRN en Suisse et il va parler sur comment les physiques et l'informatique se rencontrent dans ce terrain, dans ce domaine. Un grand bienvenue. Merci beaucoup. Alors, quand je discutais du résumé avec les gens de la piste de sciences et ils m'ont dit, wow, c'est énorme, 300 personnes qui sont attendues. Merci de m'avoir attendues, c'est un invité, c'est un grand honneur. Et quand je parle à 300 personnes intéressées par la science, je prends quelque chose qui est très pointu. Mais là, j'ai su que je serai en salle 1 et du coup, je me suis dit que j'allais faire le sujet un peu plus large. Donc voilà à quoi je suis arrivé. Donc je vais parler du SIRN et de la science. Donc je vais parler évidemment du SIRN, je vais faire une petite introduction, je vais parler de comment on va faire de la physique, ce que les données ont comme sens pour nous. Comment est-ce qu'on les traite, comment on fait de la physique avec le SIRN, malgré le fait qu'on fasse du traitement de données depuis longtemps. On a un certain nombre d'expériences, on a beaucoup d'expériences à propos de ça. Et je voudrais montrer aussi ce que c'est ma prévision pour l'analyse de données à l'avenir. Qu'est-ce que c'est le SIRN ? Vous avez sûrement entendu parler du SIRN précédemment. Vous savez sans doute qu'on fait de la science qu'on a été fondé juste après la 2e guerre mondiale. Et comme un moyen d'occuper ces scientifiques bizarres, et en fait ça marche vraiment bien. Et ça marche tellement bien en fait que c'est même plus seulement l'Europe. Donc on se situe à côté de Genève. On ne fait que de la recherche fondamentale, on ne fait pas d'armes ni de... Le WWW a été inventé au SIRN, c'est un peu un effet de bord qui s'est produit quand on faisait de la science. Et qu'est-ce qu'on fait ? On prend de l'argent, beaucoup, et des cerveaux, et à partir de ça on génère des idées du savoir. Les questions à laquelle on essaie de répondre, c'est qu'est-ce que c'est la masse ? C'est une question bizarre. Tout le monde pourrait se dire, on sait ce que c'est la masse, mais en fait non pas du tout. Donc on sait que dans l'univers, la masse cause la gravité. Et au petit échelle, au niveau des particules, on sait que la masse c'est de l'énergie. Mais on ne sait pas comment ces deux choses se rassemblent. Et en fait, quand on va emperder dans les détails, ça se contredit. Une partie de ce problème de masse, c'est aussi qu'est-ce qui se passe dans l'univers. On comprend en fait que quelques pour cent de ce qui se passe dans l'univers, 90% de la masse dans l'univers, on sait pas ce que c'est. La gravité, on sait que... Enfin, les théories de la gravité, ça marche très bien. On arrivera à comprendre des choses comme les trous noirs. Mais il nous manque encore beaucoup de choses. Et pour faire de la recherche là-dessus, on se penche sur les très petites échelles. Donc vous avez déjà entendu parler potentiellement du boson de X ou de la supersymmétrie. Donc voilà quelques chiffres. On a 12 000 physiciens qui travaillent avec le CERN. Donc c'est un peu comme l'établi du taux précédent où le CERN, en fait, c'est un peu la table sur laquelle on fait les manips. Donc on a 12 000 physiciens de 120 nations. Donc c'est quelque chose de vraiment global. Le CERN lui-même a à peu près 2 500 employés. Et notre table d'exploitation est là. Donc à l'arrière-plan sont les Alpes. Avec le Mont Blanc. On a le lac Clément. Et c'est vraiment magnifique. Mais il fallait qu'on mette un anneau quelque part là-dedans de 30 km de diamètre. Et les gens nous auraient haït si on l'avait mis comme ça. Mais heureusement, les gens étaient intelligents dans les années 70 et ont fabriqué un tunnel. Donc maintenant on a ce tunnel énorme et on envoie des particules dedans, dans deux directions. Et le tunnel est plein d'aimants. Parce que si on n'utilise pas des membres, les particules vont aller tout droit. Et on veut qu'elles tournent. Donc là vous voyez à quoi ça ressemble. Vous voyez aussi ces énormes puits qui servent à accéder à la surface. Et donc c'est là qu'il y a les expériences. Donc voilà un exemple d'expérience. Donc le LHC c'est le plus grand accélérateur de particules. Du moment. C'est un cercle de 27 km de circonférence sans mettre sous la Suisse et la France. Et la 4 grosse expériences Alice, Atlas, CMS et LHCB. Et on s'attend à ce qui soit en fonctionnement jusqu'à à peu près 2030. Là vous voyez une des cavernes dans lesquelles il y a les expériences. Donc là elle était encore vide. Et l'expérience a été descendue par le trou que vous voyez dans le plafond. Et cette pièce est vraiment énorme. Donc là j'ai mis Charlie dans l'image pour vous donner l'image. Donc on met un détecteur là-dedans. Ici il y a un peu ouvert pour qu'il soit plus joli. Vous pouvez voir quelque chose. Vous pouvez par exemple voir le tuyau où les particules passent au milieu. Elles viennent de deux directions et rentrent en collision au centre du détecteur. Et donc ils se passent des choses et on essaie de comprendre ce qui se passe. Donc ça c'est une vue de face d'un détecteur. Et il faut imaginer que vous ne pouvez pas juste vous connecter sur Amazon et acheter l'expérience. Nous on a fabriqué ça nous-même avec des doctorants, des pesoques, des ingénieurs. Et tout ça est fait à la main. Juste comme le microscope qu'on a vu dans la présentation d'avant. Mais le design, la conception et la fabrication tout a été fait à la main par nous. Et je trouve ça vraiment joli. Donc c'est presque un miracle que des nations, des gens tout autour du monde travaillent ensemble pour fabriquer quelque chose d'aussi gros de le mettre en fonction et que ça marche. Ça c'est pas mes appellées de dissements mais c'est les vôtres parce que c'est vous qui rendez ça possible. Ça fait partie des choses que je l'aime le plus au CERN. Donc c'est quelque chose d'international qui marche sans problème. Ce détecteur c'est vraiment juste une caméra énorme. On a des centaines de millions de pixels et on prend des centaines de millions d'images par seconde. On essaie d'identifier les particules qui sont produites dans la collision. Maintenant la vie au CERN c'est aussi quelque chose d'important pour les scientifiques. Et donc la vie au CERN elle est pas trop mal. On travaille dans les salles de contrôle, on étudie les forces ou la force. On a des discussions scientifiques avec une salle, avec un peu de café, une vue sur le Mont Blanc. On a des séminaires et on apprend beaucoup de choses. Comme d'habitude on a plus d'ordinateurs que de gens et ensuite on fait des choses. Et donc je vais vous présenter une partie de ce qu'on va faire. Mais vu que j'ai trop de choses à dire j'ai décidé que vous pourrez choisir. Dites-moi ce que vous voulez entendre. Vous avez le choix entre premier point physique, deuxième point model, simulation et données. Vous choisissez vraiment ce que vous voulez. Donc par applaudissement. Est-ce que vous voulez entendre à propos de physique ou bien un modèle simulation et données. Bon on va en parler de motivation simulation et données. Donc voilà ce qu'on va passer. C'est la première fois que je vois des gens qui veulent pas entendre parler de physique. Mais non je le rigole. Notre théorie est vraiment super précise. Notre travail est vraiment ennuyeux parce qu'on comprend tout. Quand il y a une collision on sait ce qui va se passer. À l'exception de quelque chose enfin quelques événements très rares et c'est vraiment ce qui nous intéresse de voir ces événements très rares. Par exemple des monopoles, la supersymmétrie ou les trous noirs. Donc le boulot du théoricien c'est de prédire ce qui va se passer dans le détecteur en supposant de la physique un peu aux petits oignons. Ensuite on peut utiliser des simulations pour voir comment le détecteur va réagir à de tels événements. Maintenant la question c'est on fait seulement des comptes en fait. Comment on peut savoir comment ce qu'on voit en fait c'est quelque chose de nouveau et pas juste quelque chose dont on a l'habitude. Donc on utilise comme je l'ai dit la simulation pour voir ce à quoi on s'attend. On utilise des logiciels de reconstruction pour comprendre ce qui s'est passé dans le détecteur pour compter combien de fois ça se produit et ensuite on utilise des statistiques pour savoir si c'est ce à quoi on s'attend. Et donc ça c'est une approche assez courante. Par exemple quand vous comparez la météo et le climat on mesure des températures qui définissent la météo mais est-ce que c'est juste la météo à petite échelle ou est-ce que c'est le climat donc à grande échelle. Et on a quelque chose de similaire dans nos problématiques. Donc ici on mesure des températures des petites fluctuations et on peut améliorer ça en mesurant sur des durées plus longues. Et on espère que ça puisse nous dire qu'il y a une structure. Et on s'intéresse aussi à des grandes déviations. Donc typiquement si vous avez une variation de 1° on ne va peut-être pas le voir mais si vous avez une variation de 5° là on va le voir. Là c'est un des premiers graphes de découverte du boson de X. Donc on voit qu'on a beaucoup d'ingrédients. Les points noirs c'est ce qu'on mesure et il y a une certaine incertitude en mesure on compte et on pourrait avoir raté des événements ou au contraire on pourrait en avoir compté trop. Donc il y a toujours une incertitude. Et ensuite on a ce que nous dit la théorie qui nous dit on devrait avoir temps. Donc la partie rouge c'est simplement ce qu'on attend, ce que la théorie nous dit. Et on voit que les données suivent la partie rouge à peu près bien mais ensuite il y a cette partie à droite ou au centre qui en fait n'a pas de sens sauf si on tient compte du Higgs. Et donc on peut voir comment l'interaction entre différentes sources de physique et statistiques marche pour nous. Donc comme pour le climat plus de données ça aide et donc il y a deux façons d'avoir plus de données. Donc il y a plus de collection, c'est pour ça qu'on travaille 24 heures sur 24 et aussi plus de données en faisant plus d'analyse. Donc ici on voit les différentes façons de faire plus d'analyse et qu'on peut combiner. Et donc vous pouvez voir à quel point ce qu'on fait c'est similaire à toutes les autres analyses en big data. Donc la partie obligatoire l'informatique. Quand on a désigné le LHC donc pas moi le code les gens ont désigné le LHC ils avaient besoin de projeter la puissance compétitionnelle de 1990 à 2000-2010 donc ils ont dit on a besoin de code c'était incroyable d'ordinateur donc on a nos rags d'ordinateur donc ça c'est quelque chose que les grandes compagnie ne montrent généralement pas donc il y a une rampe où il y a les camions qui arrivent qui déposent les choses et ils les mettent juste ensemble en tas et après on les assemble. Ça c'est comment on utilise nos temps processeurs donc on a à peu près 60 000 coeurs qui crèchent tout le temps pour nous et ils sont distribués très fortement dans le monde donc on peut voir que le CERN est la partie rouge donc on va donc voilà on fait une manifestation de ça on y tient aussi l'efficacité parce que l'efficacité c'est on est à peu près à 700% parce que 100% c'est pour les nuls donc non mais pas pour quoi ils ont décidé que s'ils étaient en train on va multiplier ton efficacité avec le nombre de trades que tu as donc ça fait aucun sens pour moi mais on a aussi du stockage donc actuellement on utilise à peu près 0.7 exabytes donc on a encore une capacité disponible aussi de 0.7 exabytes donc c'est tera, peta, exad donc oui c'est beaucoup et ici on peut voir sur le côté droite par exemple le utilisation de tape quand on on a démarré l'accélérateur donc c'est le petit type parce qu'on a dû faire de la place donc ici il y a le nouveau point de décision donc est-ce que tu as envie d'entendre sur le le compétit distribué ou sur les effets de bugs ok donc ça revient à moi la décision et je dirais qu'on fait on va mesurer l'effet des bugs c'est plus quoi donc ça c'est une des vues électroniques qu'on peut avoir d'un directeur et on voit comment on trace les particules qui traversent le directeur donc ça c'est du software donc ça c'est la résultat de le software donc je crois qu'il y a peut-être pas mais on a des bugs dans ce software donc vous savez que ces bugs sont parfois des transformations erroniques coordonnées donc les choses ne vont pas faire de ce sens là mais de ce sens là donc c'est un peu bizarre si tu regardes et le résultat c'est que nos particules ne vont pas ne suivent pas le tracé qu'ils auraient dû mais on attribue un différent chemin de manière erronée donc ce qui est bien c'est qu'on le fait ça des millions de fois donc tout ça c'est c'est bizarre parce qu'on le fait pas de manière erronée de manière systématique mais temps en temps on fait des fautes donc l'avantage c'est que le résultat net c'est que si on mesure nos particules on va pas mesurer la bonne chose mais toujours un peu moyenne entre un peu gauche, un peu à droite donc les choses ne sont pas toujours très précises donc c'est d'incertitude donc pour nous comme compter à une certaine incertitude et les prédictions à une certaine incertitude les bugs introduisent encore une nouvelle source et ici vous pouvez voir qu'on traite l'incertitude pour toutes nos analyses on essaie de comprendre les différents sources d'incertitude et à nouveau les bugs sont une des sources ici donc si vous trouvez un bug est-ce qu'on peut réduire notre incertitude et on pourrait trouver éventuellement de nouvelles physiques plutôt donc pour nous les trouver des bugs c'est vraiment important parce que ça apporte ça nous rapproche la physique donc c'est assez rare qu'on puisse on peut mesurer l'effet des bugs on parle de data je vous ai dit qu'on essaie de trouver des traces de particules dans nos données et le moyen qu'on fait ça c'est en créant des programmes de reconstruction avec des gigabytes de données ils sont spécifiques à certaines données à certains expériments ils sont open source et on veut que nos analyses soient correctes et efficaces donc le format de données qu'on utilise n'est pas du CSV, mais c'est binaire et pour une raison bizarre c'est notre propre format binaire la raison c'est que c'est vraiment destiné au type de données qu'on a des collisions qui sont indépendantes on a juste besoin d'une en mémoire et on a une liste de collections qui fait le layout en table normale une non-option on a des définitions de classe C++ qu'on peut lire à nouveau en C++ mais aussi en Java donc les bases de données ils ne mounaient juste pas parce qu'ils ont les mauvais modèles de données d'accès c'est juste pas le type de système qui fonctionnait pour nous ils ont aussi utilisé le système fichier comme un système de stockage ça a l'air un peu ennuyeux mais ça marche d'une manière incroyable c'était juste le bon chaud pour nous donc il y a beaucoup d'autres formats de données structurées qui n'existaient pas encore quand ça a commencé route mais il rate aussi beaucoup de choses par exemple on voulait être sûr que on peut par exemple changer le schéma et s'adapter aux évolutions et aussi on fait pas confiance aux gens donc en tant qu'informaticien je pense que vous comprenez de quoi je parle si les gens doivent écrire leur propre rythme il va y avoir des bugs et on va perdre des données donc on essaie d'automatiser ça à partir des définitions des classes voilà, dernier point de décision est-ce que vous voulez entendre parler de Kling, notre interprétaire C++ ou d'open data et de science appliquée donc option 1, un interprétaire C++ ok et option 2 open data et science appliquée ok, j'y vais j'ai raté quelque chose mais je pourrais regarder les slides plus tard ok, donc, voilà, c'est parti donc open data et science appliquée vraiment connaitre le budget donc je comprends ça, nous on reçoit de vous à peu près un milliard par année que la monnaie n'apporte plus vraiment à ce point et ça c'est beaucoup, beaucoup d'argent et vous savez qu'on essaie de faire des choses incroyables donc on adore nos jobs c'est incroyable de travailler dans un tel environnement et merci beaucoup pour rendre ça possible je le pense vraiment mais je veux dire que vous décidez comme société de permettre quelque chose comme C++ parce que je pense que ça mérite vraiment mon applaudissement donc je pense que c'est une bonne décision de faire quelque chose comme ça donc, on a réalisé ça et on a réalisé qu'on est on peut faire ce qu'on fait grâce à vous et on essaie de rendre à vous quelque chose en retour le moyen où on partage nos résultats de recherche c'est à travers Open Access on a passé longtemps à se battre avec les éditeurs, les autres publications maintenant on a quelque chose donc merci on a aussi mis beaucoup d'efforts dans la communication pour communiquer les résultats ce qu'on fait et si vous êtes dans la régence définitivement bien de venir vous visiter donc vous pouvez vous visiter CERN donc vous devriez aller là-bas en avril parce que à ce moment là vous pouvez demander aux gens d'aller en dessous enfin sous terre parce que l'accélérateur est en ce moment donc on peut aussi la recherche appliquer donc par exemple on a cette expérience super cool on essaie d'étudier comment les nuages se forment basés sur le règlement cosmique c'est un élément clé dans l'incertitude des modèles climatiques on essaie de réfléchir comment on fait de l'énergie à partir des chaînes nucléaires on essaie aussi de réutiliser les directeurs qu'on a développés on a quelque chose qu'on appelle Open Hardware par exemple White Revit donc l'éternet déterministe on a Open Data on a le LHC Atom ou d'autres programmes où vous pouvez par exemple nous offrir la puissance confessionnelle ou nous aider à avoir de meilleurs résultats donc on essaie d'essayer le plus possible Open Source et aussi de donner du feedback dès qu'on voit des problèmes on crée aussi l'Open Source par exemple on crée Jant c'est un programme qui permet de simuler comment des particules veulent on a Iniko qui nous permet de planifier des meetings de ploiter des slides toutes ces choses à travers le monde toutes les personnes qui ont accès peuvent faire leur planification on a WWW donc ça c'est le futile l'effort futile pour essayer d'empêcher l'équipe de nettoyage de l'éternet mais malheureusement il parlait pas en anglais donc on utilise pour transférer des fichiers sur htp avec une haute bonne passante cheese cern vmfs qui nous permet de distribuer nos binaires à travers le globe et ça se base sur admin qui permet de pas dépendre des administrateurs qui installent les choses à la main et ça marche très très bien et on a route aussi maintenant la dernière partie comment est ce qu'on traite nos données donc pas comme ça on utilise du c++ donc les physiciens doivent utiliser c++ pour écrire leurs propres analyses on est assez peu à avoir eu une vraie expérience en programmation et donc les événements l'important c'est d'avoir seulement une collusion en mémoire et ce qui nous intéresse c'est vraiment la bande passante on compte en collusion par seconde et on veut optimiser au mieux les entrées sorties nos routes nous permettent de faire ça depuis maintenant une vingtaine d'années c'est le cheval de bataille de la physique, des hautes énergies donc il y a des outils de sérialisation des outils statistiques et de quoi faire des graphiques parce que une fois que vous avez des résultats il faut les communiquer au pair il faut les publier et tout ça c'est open source et évidemment tout ça n'est pas utilisé que par la physique des hautes énergies en conclusion on est là parce que vous rendrez ça possible merci à vous on veut partager et on a beaucoup de gens pour faire de la communication scientifique mais on a beaucoup moins de gens pour faire de la communication à propos du logiciel la programmation scientifique c'est quelque chose qui n'est pas nouveau, ça existe depuis longtemps mais on a dû commencer assez tôt sur une grande échelle de temps et on avait essayé de prendre des morceaux qui existaient et on n'a pas réussi et donc on essaye de faire de la sérialisation de donner ces plus plus de pouvoir la distribuer de faire du calcul efficace même pour des gens qui ne sont pas des informaticiens et le plus important c'est vraiment le passage à l'échelle il y a maintenant beaucoup plus que la physique des particules qui arrive au niveau des big data et je vais essayer maintenant de faire quelques prévisions sur les caractéristiques qui va y avoir en science maintenant on est en train d'éduquer des gens qui vont faire de l'analyse de données pas seulement en science et par le passé les volumes de données c'était le plus important plus de données ça voulait dire plus de pouvoir et maintenant c'est plus tellement vrai l'important c'est de trouver des correlations la taille de données n'augmente plus vraiment parce qu'elle est déjà énorme et maintenant c'est le traitement qui devient plus important et donc les points importants maintenant sont les entrées sorties parce qu'on cherche des correlations donc ça implique des accès aléatoires et les limitations de CPU donc par rapport à ce que je viens de dire ça c'est plus une grande surprise vu qu'on a besoin de bandes passantes il nous faut un langage dont l'analyse centrale est proche du hardware mais ces analyses sont quand même encore complexes et donc on a besoin d'infrastructures qui nous permettent d'avoir des données complexes et c'est pour ça qu'on a aussi une interface en piton donc comme je l'ai dit, la bande passante est vraiment très importante et donc on fait beaucoup d'efforts pour améliorer cette bande passante voilà c'était tout si vous voulez encore discuter quelque chose avec moi il n'y a pas de soucis il y a probablement encore beaucoup de bugs je suis encore là jusqu'à demain je ne sais pas trop où vous pouvez me contacter par email ou par Twitter, merci pour votre attention