 donc cette prochaine session va couvrir deux sujets qui m'intéressent particulièrement d'abord le deep learning et le machine learning et en seconde place la durabilité et les responsabilités autour du deep learning donc ce sera présenté par Nadia Geisler et Benjamin Hettach bienvenue merci bonjour à tous et je suis vraiment content d'être ici et qu'on soit ici et que vous êtes tous ici c'est notre premier congrès et c'est très excitant d'être ici donc j'ai terminé mon master à la TU d'Armstadt moi je suis Benjamin je travaille sur le sujet depuis deux ans je ne voulais pas simplement utiliser le deep learning mais je voulais plutôt m'intéresser vraiment à tout ce qu'il y a autour et c'est ce que je vais vous présenter notre session on l'a construite autour du moto du 36c3 et on voulait justement regarder plus en détail les aspects du deep learning et du machine learning par rapport aux aspects de la durabilité et de les responsabilités qui est un sujet intéressant pour notre avenir aujourd'hui avant de passer sur les trois facteurs les trois problèmes de durabilité du deep learning on va d'abord définir le deep learning quels sont les bases absolues que vous devez avoir avant qu'on passe aux prochaines 35 minutes de notre discours donc c'est ce qu'on va faire pour commencer donc qu'est ce qu'on veut dire quand on parle de deep learning qu'est ce qui fonctionne et comment est le fonctionnement interne quand on l'utilise et pourquoi est ce qu'on met en place du deep learning quand on parle de deep learning on parle de au final de réseau neuronale ou artificial neural network en anglais donc c'est des constructions machinelles qu'il y a depuis très longtemps et on a eu un gros flop parce qu'on n'avait pas forcément les résultats qui nous intéressait avec le machine learning et maintenant sont revenus à la mode et ont été remis au goût du jour on a dans l'architecture du réseau neuronale on a plusieurs nœuds et chaque nœud contient une est connectée à certains nœuds et contient un certain nombre de fonctions qui permettent de calculer un résultat pour l'instant c'est relativement simple une fois qu'on a bien entraîné notre réseau neuronale on va avoir pour des données d'entrée un certain type de données de sortie qui vont créer notre résultat ce qui est le plus important dans un réseau neuronale c'est les données d'entraînement donc les données qu'on va utiliser pour créer pour entraîner notre réseau neuronale par rapport les ce qui est le plus important c'est la quantité de données il faut vraiment beaucoup de données pour travailler avec des réseaux neuronaux pour entraîner le système qui est important c'est de voir les cas d'usage et l'utilisation du modèle ici on voit bien sur cette image de on part de gauche à droite on a la partie training donc les données qu'on rentre qu'on les données d'entrée de notre réseau neuronale qui rentre dans les différents nœuds de notre les différents neurones de notre réseau et chaque neuron représente une fonctionnalité ça peut être des couleurs ça peut être des formes ou des de la luminosité et ensuite chaque chaque propriété est représenté par le résultat produit par le neuron et ensuite même si le réseau arrive à différencier un chien d'un loup par exemple ça veut pas dire que vous allez avoir un résultat clair vous allez avoir des des chiffres qui vont vous qui vont vous donner qui vont vous dire la raison pour pour laquelle une certaine donnée de sortie a été sélectionnée c'est la base d'un système qui est utilisé pour le deep learning ce qu'on voit ici c'est qu'on prend vraiment une grande quantité de données et on utilise des des trucs des des astuces à utiliser en statistique qui lorsqu'on utilise des des fonctions spéciales on a une généralisation des résultats donc on va prendre vraiment les les astuces qui sont présentes dans les statistiques depuis des centaines d'années et on va les appliquer pour avec une grande quantité de données qu'on comprend pas forcément avec vraiment une quantité massive de données on peut généraliser de manière assez importante pour avoir un système qui fonctionne correctement par rapport au résultat attendu malgré le nom deep learning ou intelligence artificielle ça n'a pas énormément à voir avec ce que nous on considère comme de l'intelligence ou comme de l'apprentissage le tweet que vous voyez ici résume bien la situation indique que le cerveau d'un être humain fonctionne fonctionne complètement différemment si notre cerveau fonctionnait comme le deep learning on se taprait la tête plusieurs fois avant de comprendre avant d'avoir le résultat escompté parce que un réseau de deep learning ne peut pas créer les résultats attendus assez rapidement et avec une quantité de données limitées comme le cerveau humain peut le faire c'est un problème et on va le voir en détail on va le discuter en détail mais ce qui ce qui est important c'est de savoir qu'on a besoin d'avoir une grande quantité de données pour pouvoir avoir les résultats escomptés le problème c'est enfin le le but c'était vraiment d'essayer de reconstruire le fonctionnement d'un cerveau avec un réseau neuronal mais aujourd'hui l'utilisation n'est plus vraiment où l'application n'est plus vraiment la reconstruction d'un réseau neuronal mais c'était l'objectif primaire la ce qui est intéressant c'est de voir où est ce qu'on utilise où est ce qu'on utilise tout ça c'est pas uniquement dans des institutions académiques et dans des centres de recherche c'est dans des applications qui sont répandues à plein de pour et contre on a en ce moment vraiment un pic de popularité et on a par exemple les assistants de langage tout ce qui est les assistants personnels syrie alexa etc qui font du traitement de texte par rapport à des entrées de vocale et ensuite ils doivent pouvoir traiter toutes les données qui viennent d'internet pour mais après on a aussi des tout ce qui est conduite autonome tesla huber le transport autonome en général avec des contrôles très précis de la motorique de des différentes pièces etc sinon il y a tous les systèmes de recommandation comme amazon avec les clients qui ont acheté ça achète aussi ceci les résultats triés par google lorsque vous faites une recherche mais aussi ce que me montre mon news feed facebook et qui reçoit quoi et combien de fois quelque chose a été vu c'est pas si simple que ce que pensent certaines personnes on a aussi des systèmes de des systèmes légaux qui sont utilisés pour pour calculer des peines de prison par exemple donc je l'utilise comme soutien juridique mais aussi des systèmes qui essaient d'identifier en avec la reconnaissance faciale différentes personnes on a tous ce qui est algorithme de notation pour des des du pour faire du social rating pour tout ce qui est assurance par exemple et aussi pour trier des candidats éventuellement qui qui envoie des candidatures sur des pour des emplois ces systèmes comprennent pas vraiment ce qui ce qui se passe pour peut pas vraiment savoir on ne sait pas vraiment ce que fait le l'algorithme derrière dans l'intelligence artificielle dans cette deep learning on ne sait pas trop si ça utilise la distance entre les yeux si ça regarde certains mots dans les dans des textes et ainsi de suite on ne comprend pas vraiment ce qui se passe on ne peut pas vraiment regarder non plus que ce qui se passe dedans et quand des fois quand on regarde dedans ce que ça fait quand on regarde les résultats on est un peu aussi pris à part pris de couvre parce qu'il se passe parce que des fois ça aussi des conséquences néfastes et secondaires qui sont néfastes donc assez du deep learning et de comment ça marche d'où c'est utilisé et donc la durabilité nous ce qu'on regarde c'est premièrement la durabilité économique et académique qu'est ce qu'on comprend par la durabilité économique ça serait premièrement la pertinence comment est-ce que c'est pertinent pour le domaine académique dans lequel on évolue et pour le quotidien de la population la deuxième chose qu'on regarde c'est est-ce que les résultats sont reproductibles donc est-ce que on peut avec ce qu'on est en train de publier aussi reproduire nos résultats ou au moins quelque chose qui ressemble à nos résultats ensuite on regarde est-ce que ce qu'on a étudié est-ce qu'on peut les réutiliser ou est-ce que ce n'est vraiment que applicable sur le tout petit domaine qu'on est en train de regarder est-ce que ça c'est est-ce que c'est concurrentiel donc est-ce que éventuellement le système qu'on est en train d'utiliser est beaucoup plus dispendieux que d'autres systèmes qui seraient disponibles la systématique et dernièrement encore la pertinence aussi des résultats donc est-ce que les résultats qu'on arrive à avoir sont pertinents au niveau statistiques est-ce qu'ils sont pertinents au niveau de ce qu'on peut en faire ensuite certains d'entre vous viennent probablement du domaine académique donc comment est-ce qu'on aimerait que le domaine académique que la recherche fonctionne on fait de la recherche on peut les reproduire les résultats et ensuite on les utilise mais actuellement dans le domaine académique ce n'est pas tout à fait ce qu'on fait parce qu'il y a une pression d'avoir des résultats qui sont relativement donc ce qui se passe c'est que il y a des gens qui font des études sur du deep learning d'autres gens qui entendent parler de ces systèmes et qui se disent ah ouais ce système il a l'air cool le nom elle est intéressant quoi que ce soit on va essayer d'utiliser sur ce que nous on pourrait l'utiliser sur le domaine que nous on est en train d'étudier éventuellement rajouter quelques différentes couches rajouter quelques nœuds on va changer un petit peu les modèles éventuellement changer un peu la dimension des vecteurs qu'on utilise et donc on brasse un peu le tout jusqu'à ce qu'on arrive à quelque chose qui a l'air d'être pertinent pour ce qu'on est on se rende du filier et on balance ça sur le raisonner dans l'al qu'on utilise ça fait du deep learning on met les données dedans et ensuite on regarde si le résultat qui en ressort à l'air intéressant et éventuellement si ça avait pas l'air intéressant et ben on change un peu le raisonneronal les différentes conditions qu'on avait et on recommence et on recommence jusqu'à ce que on arrive à un résultat qui a l'air intéressant et on continue jusqu'à ce qu'on arrive à des paramètres pour le raisonneronal qui ont l'air bien et on écrit une étude là dessus et donc pour classifier des loups par rapport à des chiens ce sont les données qu'on a utilisées ça c'est vrai résultat qu'on a eu et si jamais les résultats ne sont pas vraiment intéressants dans ce cas là on n'a peut-être pas pris le bon algorithme ou on n'a pas mis assez de couches trop de couches pas assez de dimension de vector ou trop de dimension et on recommence du début donc on essaye avec d'autres paramètres et on réentraîne un raisonneronal et on regarde si les résultats sont bon la seule chose qui se passe entre les deux c'est qu'on a utilisé beaucoup d'électricité beaucoup d'énergie éventuellement du temps mais ce n'est pas quelque chose qui a qui coûte beaucoup aux chercheurs et ce n'est plus vraiment de la recherche empirique c'est vraiment juste dû essayer essayer changer les paramètres tourner un peu ici faire un peu plus bleu là et essayer de voir si on a des résultats intéressants c'est un peu dommage aussi parce que la plupart des papers qui sont publiés la plupart des études qui sont publiés ce sont celles qui ont des bons résultats il ya personne qui ou peu de gens qui publie des résultats par rapport aux échecs qu'ils ont eu donc par exemple si un raisonneronal qu'on a eu entre temps qui n'a pas fonctionné on ne va pas le publier et c'est un peu difficile parce que ça n'évite pas aux autres d'essayer ces paramètres aussi pour on essayait pour revoir que faut ont été faites et parce qu'on ne comprend pas non plus vraiment en quoi les paramètres qu'on a utilisé influent le résultat et donc ce qui se passe c'est qu'on publie juste les meilleurs résultats qu'on trouve et que comme ce sont que les meilleurs résultats qui sont publiés les algorithmes ont éventuellement aussi l'air d'être beaucoup meilleur que beaucoup mieux que ce qu'ils seront sont parce que les échecs ne sont pas publiés et donc au final on est déjà un système académique de publication qui n'est pas génial à la base et avec ce procédé donc d'essayer un peu de trouver quelque chose qui marche bien ne le rend pas mieux ça ça pourrit encore un peu plus le système et la pertinence des résultats qu'on arrive à en avoir la représentation qu'on vous en fait aujourd'hui c'est peut-être aussi un peu ager c'est peut-être un peu imagé un peut-être un peu trop mais c'est pour vous en faire une description pour que vous puissiez comprendre aussi le système académique est un peu plus complexe que ça au final donc par rapport au deep learning on ne comprend pas vraiment ce qui se passe dans le deep learning c'est vraiment une boîte noire on met des choses dedans il y a des choses qui ressortent il se passe quelque chose entre il se passe éventuellement aussi des choses avant avec du travail qu'on fait sur les données avant de les mettre dans le deep learning et des résultats qui ressortent de cette boîte noire il faut aussi éventuellement regarder est-ce que ça a l'air d'être intéressant est-ce que c'est pas intéressant est-ce qu'il faut que je mesure encore un petit peu plus ou que je change encore un peu les données et donc c'est relativement facile aussi si on ne réfléchit pas à la systématique et au système qu'on utilise et surtout à la significance de ces changements qu'on fait d'avoir des résultats qui ne veulent pas le dire en chose mais ça a l'air aussi tellement sympa et tellement bien présenté que ça passe quand même pas mal de publications donc sans avoir vraiment d'idées nouvelles ou d'idées académiques intéressantes on peut faire des publications qui ont l'air intéressante parce qu'il y a des chiffres il y a ça parle de deep learning et si je suis le premier qui utilise le deep learning pour essayer de résoudre un certain problème c'est aussi relativement facile d'être publicité publiée parce que comme il n'y a personne d'autre encore qui ne l'a fait n'importe quel résultat peut être un résultat intéressant si on veut savoir si un système est efficace ça serait bien de pouvoir répéter la même expérience c'est pas si simple parce que si les systèmes qui ont été utilisés les systèmes de base sont peut-être standards ou même open source et existent dans le domaine open source c'est pas vrai pour tous les détails qui ont été implémentés par les personnes donc c'est pas forcément vrai pour tous les tout le code qui a été implémenté tous les process les données en général ne sont pas disponibles les données sont une valeur donc on veut pas forcément les données mais on peut on peut pas vraiment monter un système et dire être certain qu'il est efficace dire je l'ai monté moi-même et voilà voilà les résultats on peut avoir des paramètres qui décrivent le système en détail mais sans ces paramètres de base on peut on a aucune chance de reproduire l'architecture le système utilisé on a des choses comme l'architecture la taille des couches et les fonctions d'activation c'est important d'avoir ça parce que ces systèmes sont extrêmement fragiles et si on change des petits détails des fonctions qui sont liées les unes aux autres ou la taille des couches les coefficients on aura un résultat qui sera complètement différent au résultat qu'on a précédemment donc ça nous empêche de reproduire le même système le problème c'est qu'on a on a des motivations pour standardiser pour mieux documenter tout ça mais on n'a aucune obligation donc voilà dans la recherche on aimerait bien que la recherche soit reproductible mais on ne force pas les chercheurs à créer un système reproductible et à documenter leur architecture en détail parce que si on voulait le faire il faudrait vraiment en lister tous ces éléments que je vous ai présentés en détail et pouvoir avoir une sorte de label pour confirmer que l'expérience est reproductible mais sinon c'est impossible le fait de pouvoir reproduire les expériences devient de plus en plus plus important ce qui est ce qu'on le le problème c'est qu'on a énormément d'expériences et énormément de d'études scientifiques qui ne peuvent pas être réutilisées par d'autres chercheurs et c'est important le partage et l'évolution des recherches dans des nouvelles versions le problème c'est que voilà on ne peut pas si on ne peut pas reproduire on ne peut pas continuer à travailler sur sur un problème existant et l'améliorer ce qui est un début dans la recherche de toujours améliorer les résultats améliorer la recherche ce qui ce qu'on aimerait bien c'est d'avoir cette reproductibilité partout et toujours donc la solution c'est de pouvoir publier notre code source regarde là un écureuil ça c'est quelque chose qui nous arrive beaucoup trop souvent quand on parle de code et de publier publier le code quand on a un gros projet et qu'on s'approche de la deadline souvent le code a pas encore été nettoyé et on nous on a on a énormément de pression de publication autour du deep learning il faut vraiment être très très très rapide pour pouvoir avoir vraiment des améliorations significatives dans ce domaine là et du coup on fait on a que le code on a d'un code qui est pas propre et même au moment de la publication et du coup on pense pas à rendre ce code disponible et le le publier c'est pas c'est pas le cas pour tous les toutes les recherches ça se produit encore de manière très rare donc pour une conférence ils ont essayé de reproduire les différents résultats qu'ils ont eu dans les publications qui ont été faites lors de cette concurrence de la conférence et de la conférence précédente et ils ont vraiment essayé de prendre du temps pour reprendre reproduire les résultats et les résultats de cet essai de réproductivité sont relativement maigres il y a 30 % 33 % qui ont pu avoir été reproduits 50 % en partie et même 10 % qu'on n'a pas du tout réussi à reproduire aucune partie de la publication c'est déjà relativement mauvais mais en plus si on regarde la difficulté et qui les chercheurs ont eu à reproduire les résultats donc de ces publications c'était en partie vraiment très difficile donc c'est un peu une crise de la reproductivité dans le deep learning et donc après ce challenge après avoir essayé de reproduire des résultats il y a une quinzaine de % de chercheurs en plus qui ont vu un problème donc dans la reproductivité des résultats dans le deep learning et ils sont à peu près trois quarts actuellement des chercheurs qui ont pris part à cette recherche qui voient un problème de reproductibilité dans le deep learning il y a entre temps aussi des publications des études qui font des métaïtudes entre guillemets donc qui étudient les résultats d'autres publications et qui ont essayé de voir quel pourcentage des résultats qui ont été publiés dans différentes conférences dans différents journaux quelle partie ils ont pu reproduire et pour ça ils ont même contacté des auditeurs pour avoir leur code ils ont essayé d'avoir leur aide pour pouvoir reproduire les résultats ils ont même racheté le même hardware pour pouvoir avoir le truc le plus proche de ce qui a été utilisé pour l'étude et sur 18 des études publiées qu'ils ont étudiées ils ont réussi à reproduire 7 et pour en arriver à ces 7 études reproductibles ils ont dû aussi déjà investir pas mal de travail et pas mal de temps pour en arriver à des résultats comparables et dans le domaine académique ce n'est pas vraiment quelque chose de bien et pour en arriver à ces 7 études reproductibles ils ont mis plus de travail dedans que ce que généralement des gens qui regardent ou qui regardent des études ou qui décident si elles peuvent être publiées les gens qui décident si les études sont publiées ne vont pas non plus essayer de reproduire les états mais ils lisent peut-être la recherche éventuellement même pas la recherche complète et les publications de ces conférences dans ce cas là ne sont pas non pas d'essai de reproductibilité avant d'être publié ou d'être accepté pour une conférence c'est juste un bonus éventuellement si c'est demandé mais la plupart des décisions de publication ou de conférences c'est vraiment on lit l'étude si ça a l'air bon on l'a publié on l'accepte pour la conférence pour vous démotiver encore un petit peu pour les 7 études qu'ils ont réussi à reproduire ils ont réussi ils ont essayé d'utiliser d'autres approches que le deep learning et sur 6 de ces 7 études ils ont réussi à trouver d'autres méthodes que le deep learning pour arriver à des résultats qui étaient meilleurs que les résultats qu'ils avaient obtenu à la base par du deep learning donc sur 18 études qu'ils ont étudié il y en a une qui a réussi à avoir un intérêt académique dans le sens où ça nous a apporté plus de résultats qu'on avait au départ donc qu'est ce qu'on aurait comme comme alternative les autres alternatives c'est vraiment des trucs de base et donc nos systèmes de deep learning forcément ils vont être un peu mieux que des trucs de base tout bête mais du coup toutes les autres approches qui ont déjà été utilisées mais qui auraient besoin d'être utilisé un petit peu plus ou des choses comme ça sont complètement délaissées parce que c'est vraiment quelque chose qui n'est pas qui n'a pas de hype qui n'a pas vraiment de traction derrière pour être publié pour ce qui est des systèmes de base si c'est quelque chose qui a une qui arrive à décider c'est une image c'est un chien ou un loup à quelque chose qui arrive à 5% de reconnaissance éventuellement même de lancer une pièce ou d'utiliser juste une réponse au pif ça pourrait même être mieux que ces 5% donc c'est vraiment quelque chose de très très basique par rapport à quoi c'est comparé donc il y a les études Kaggle aussi qui regardent un peu les tout ce qui est du data science hors du cadre académique et là ce n'est pas terrible non plus on voit aussi que des essais avec des systèmes plus classiques et pas des systèmes de deep learning arrivent à aussi avoir des résultats qui sont plus intéressants que le deep learning et il y a certainement une raison pour ça et j'aimerais voir les aspects suivants et le prochain c'est l'influence sur la société donc voir un peu comment on peut faire attention à la durabilité donc on va commencer avec les explications et la transparence donc j'en ai parlé tout à l'heure du logiciel utilisé dans les cas juridiques qui va donner un score pour décider des d'un jugement lors d'un procès si on regarde par exemple la couleur de peau des personnes on voit une différence entre les gens avec une peau de claire et une peau foncée donc on voit que les scores sont distribués de de manière différente si la personne a les scores sont distribués différents différemment pour les personnes avec des peaux clairs ou avec des peaux foncés on voit donc donc pour le même le même la même infraction on n'a pas le même score pour des personnes avec des originiétiques différentes si ça c'est c'est vraiment un problème parce que c'est des systèmes qui vont influencer la vie de d'être vivant et qui sont déjà utilisés aujourd'hui est-ce que la la corrélation se fait sur beaucoup d'éléments sur beaucoup de facteurs décisifs comme le logement ou les revenus etc donc alors ce que beaucoup de gens considèrent c'est que les algorithmes nous donnent des résultats définitifs et ce qu'on doit faire et ce que beaucoup de gens ne considèrent pas c'est que donc les résultats de ce système serait à voir comme des préconisations et quelque chose à avoir de façon plus critique que de juste le prendre à valeur exacte donc est ce qu'on est en train de faire du opif machinel il faut voir ce qu'on fait donc on prend beaucoup de données et on essaye de généraliser les données qu'on a et on essaye vraiment de généraliser et on demande au système de toujours avoir un résultat sans avoir vraiment de raisons pour avoir par arrivé à ce résultat on demande vraiment d'avoir un résultat et donc du coup ce qu'on arrive à pour de l'intelligence artificielle ou des raisons Renault Renault c'est vraiment juste la machine a appris quelque chose et de prédire l'avenir mais ce que la machine ne fait pas c'est de fin je dirais il n'y a pas de prédiction de l'avenir il y a vraiment juste de regarder ce qui s'est passé dans le passé et d'essayer de penser à qu'est ce qui pousserait se repasser en passant dans le futur ce qui est problématique c'est que les gens font confiance à leur ordinateur dans la société c'est très diffusé partout que l'intelligence artificielle c'est génial ça va nous sauver l'intelligence artificielle peut faire des choses que nous ne pouvons pas faire par exemple on a ces grands instituts de recherche qui disent qu'il faut faire de l'intelligence artificielle partout si je mets sur ma crème pour la peau que elle a été créée avec de l'IA ce sera mieux vendu si je veux que ma société soit mieux positionnée c'est intéressant du coup d'embaucher des gens qui font comme s'ils étaient des ordinateurs parce que l'ordinateur y arrive pas encore et pour prendre des réservations ou des rendez-vous pour pouvoir dire après que l'IA est très efficace parce que l'ordinateur est beaucoup plus intelligent et on peut avoir des avantages sur le marché un autre exemple ici que on vous a amené une vidéo donc pour répondre directement à la question ça existe vraiment j'espère que je n'ai pas besoin d'expliquer pourquoi c'est problématique mais je vous demande quand même un niveau sociétal à un niveau sociologique ce qui se passe avec les humains ce qui se passe avec l'humain si on utilise des problèmes comme ça et que c'est vraiment problématique on passe aux trucs suivants parce que je n'ai pas vraiment de bonnes réponses à ce que je viens de vous poser donc on en vient au donné pour le deep learning on a vraiment besoin d'une grande grande quantité de données et c'est en clinche avec nos intérêts sociétaux de ne pas collecter beaucoup de données justement donc on a d'un côté besoin de beaucoup de données mais on essaye d'être économes en données on a ensuite des problèmes par exemple avec cette intelligence artificielle qui a été connecté à un réseau social et qui au bout d'un carter était d'extrême droite c'est vraiment problématique une autre question qu'on doit se poser qui est importante pour tout le monde c'est qu'on travaille tous sur des systèmes qui sont changés modifiés qui sont censés modifier quelque chose dans la vie de tous les jours et on a tous une responsabilité comme par exemple pour la conduite autonome qui est responsable en cas d'accident mais pour n'importe quel autre système c'est c'est vrai aussi on a tellement de gens qui sont impliqués dedans c'est la personne qui programme qui code on a les gens qui mettent qui font le cahier des charges on a les gens qui achètent qui vendent on a les assurances on a des personnes privées qui font l'acquisition d'un système intelligent qui est responsable qui peut être tenu responsable en cas de problème et comment est-ce qu'on est ce qu'on peut décider à sécuriser les systèmes savoir comment les systèmes ont été designés pour pouvoir les les améliorer et les sécuriser il n'y a pas de réponse vraiment satisfaisante pour ça une des statistiques aux états unis ont montré que majorité trouve ça inacceptable qu'un algorithme soit utilisé pour dans certains domaines comme par exemple pour la criminalité pour pour les jugements ou pour les les recherches d'emploi les candidatures d'emploi que se décidait par un ordinateur trouve pas ça acceptable mais c'est déjà fait de manière très étendue sans qu'il n'y ait aucun contrôle et donc là on arrive au dernier point au niveau de la durabilité d'un point qui n'est pas souvent étudié au niveau du deep learning mais que nous on trouve très très important c'est les correspondabilités en particulier en temps de démonstration de plus en plus importante pour sauver la planète pour sauver l'envers vraiment c'est important qu'on ait donc un oeil sur ça on sait par exemple des bitcoins que ça consomme beaucoup beaucoup d'électricité on sait par exemple qu'une transaction en bitcoin ça consomme à peu près 500 mille fois autant qu'une transaction visa ou autant qu'un réfrigérateur pendant 8 ans c'est un problème qu'on a dans tous les dans tous les systèmes qui ont besoin de beaucoup de données et comme pour le deep learning on a besoin de beaucoup de données c'est aussi quelque chose qui entre en compte on a actuellement une grande quantité et une quantité de plus en plus importante de centres de données et qui consomment de plus en plus d'énergie on pense qu'à peu près ça consomme 200 à 500 milliards de kilowatts par an mais on ne sait pas vraiment parce que les opérateurs de centres de données ne sortent pas gens de données mais si on considère que tous les centres de données ne sont aucun pays il n'y a apparemment que cinq pays qui consommerait plus d'électricité que tous les centres de données sur terre si on regarde aussi dans le niveau plus petit la quantité d'énergie que consomme différents algorithmes de deep learning ou d'intelligence artificielle on voit que les systèmes qui sont actuellement à la pointe et qui sont utilisés par google et ainsi de suite qui sont utilisés par les grandes boîtes que la consommation d'électricité et de ressources pour entraîner un système sont vraiment dans des ordres de grandeur de 100 000 voire des millions d'euros on utilise en plus pour ça des de la technologie de pointe donc des cpu et des cartes graphiques et des choses comme ça qui sont vraiment très chères et donc d'un côté ce sont des ressources relativement rares qui sont achetées donc ces cartes graphiques et ainsi de suite ce qui les renchèrent ce qui rend aussi difficile à des plus petits instituts de pouvoir en acheter et de l'autre côté ça consomme beaucoup beaucoup beaucoup d'électricité et de ressources et c'est à notre avis une tendance qui est vraiment dans le mauvais sens si on regarde ici par rapport au rejet de CO2 l'impact sur les rejets de CO2 dans l'atmosphère l'entraînement d'un modèle qui est publié donc un gros modèle c'est environ autant de rejets de CO2 que cinq voitures dans toute l'heure durée de vie donc en incluant toute la production de la voiture et la consommation avec l'essence utilisée etc donc on utilise des modèles comme ça régulièrement pour entraîner des données et juste pour faire une toute petite publication quelque part sur un tout petit domaine très très spécifique et moi je vous amène quand même une bonne nouvelle il ya quand même des bons résultats et des résultats positifs qu'on arrive à sortir du deep learning et de l'intelligence artificielle par exemple google a réussi à utiliser l'utilisation de ces centres de données avec de l'intelligence artificielle et du deep learning donc des choses comme refroidir plus refroidir moins des serveurs éteindre des serveurs et ainsi de suite et ils ont réussi à réduire leur utilisation d'électricité de 40 % c'est un peu aussi ironique parce qu'on utilise de l'électricité pour réduire la consommation d'électricité dans un centre de données dans lequel on va éventuellement aussi faire les calculs pour le deep learning mais voilà pour tout ce qui a trait à l'ordinateur ça c'est un peu plus facile pour des choses qui ont entré à la production de bien matériel c'est un peu plus difficile d'appliquer ce genre d'optimisation mais c'est quelque chose qu'on peut quand même mettre en œuvre est ce que l'électricité de la consommation d'électricité et le rejet de CO2 c'est la fin de tout ce qu'on a comme rejet et comme éco-responsabilité non ce ne sont pas les choses les seules choses il y a toute la infrastructure toute la place toute la place dont on a besoin le volume l'argent qu'on met dedans qu'on avec lequel on pourrait faire autre chose avec le métal avec et ainsi de suite ainsi de suite donc toutes les ressources pas seulement d'électricité et de dioxyde de carbone qui serait à considérer pour le deep learning et l'intelligence artificielle et donc il y a beaucoup trop de gens qui il y a trop peu de gens qui s'occupent de ce genre de problème et on en arrive au point important comment est-ce qu'on peut améliorer les choses donc comment on peut poursuivre ce qui est important pour nous c'est de vraiment étudier étudier la chose travailler construire les systèmes et travailler sur les systèmes pour pour les améliorer les simplifier on on essaye de faire en sorte que les senseurs et intégrés dans les voitures autonomes soit soit optimisé que tous les systèmes utilisés dans dans l'industrie soit optimisé c'est sûr on peut continuer comme ça si on on peut gagner beaucoup d'argent avec ça mais c'est probablement pas une bonne idée il faut vraiment se poser la question quels sont les conséquences de tout ça et qu'est ce que comment nous pouvons contribuer à optimiser les choses et tout ce qui est dans notre secteur est vraiment poussé par la communauté donc c'est vraiment à chaque chercheur de décider s'ils veulent continuer comme ça ou s'ils veulent vraiment faire attention et devenir et correspond sable donc pouvoir revenir aux conséquences sociétales de ces systèmes ils font vraiment qu'on se pose les questions au niveau sociétale et qu'on ait une discussion au niveau sociétal de ce qu'on attend de ce système pour que ce ne soit pas juste cinq ou dix personnes qui ont des intérêts économiques qui décident ça mais qu'on a vraiment une discussion au niveau sociétal pour ça il faut aussi qu'on fasse de l'apprentissage au niveau sociétal donc que les consommateurs puissent comprendre à un niveau peut-être plus abstrait de ce que fait le deep learning et l'intelligence artificielle sans entrer dans le dis pas de détails mais pour comprendre un peu mieux de ce que on peut faire avec du deep learning au nis ou pas et qu'on puisse en tirer les aspects positifs sans rester trop dans les aspects négatifs il faut aussi qu'on ait une discussion et une awareness de d'où viennent les données et ainsi de suite qui passe qui rentre dans ces systèmes donc le résultat de tout cette présentation c'est qu'il faut réfléchir qu'il faut changer notre réflexion changer notre façon de penser au lieu de juste continuer à utiliser ce qu'on fait déjà beaucoup de choses qu'on peut changer serait utile à différents niveaux par exemple sans utiliser de systèmes de deep learning ou de l'intelligence artificielle ça pourrait améliorer la reproductibilité et diminuer la consommation de ressources et ainsi de suite on espère qu'on a réussi à vous donner une petite idée du thème qu'on étudie c'est vraiment beaucoup plus vaste que ce qu'on a présenté aujourd'hui mais on a déjà passé un peu le temps merci d'être venu merci de nous avoir écouté j'espère qu'on vous a donné un petit peu à réfléchir et on a encore quelques minutes pour des questions je vais essayer de rester court donc l'intelligence artificielle pour les voitures est relativement fascinante elle arrive à différencier un arbre d'un panneau de signalisation et c'est relativement fascinant par contre d'autres systèmes qui essayent de différencier quelque chose qui est beau quelque chose qui est intéressant est ce qu'on peut avoir les données d'entraînement qualitative oui je suis tout à fait d'accord la qualité c'est un élément très important mais il faut aller vraiment au-delà de ça le problème avec la voiture et le piéton qui était en dehors des passages piéton c'est un problème plutôt commun le problème c'est que chaque personne recherche des choses différentes et c'est vraiment autre chose la classification des voitures autonomes et la classification d'un moteur de recherche mais ce que fait google par exemple il faut vraiment en discuter on va passer à la prochaine question d'internet est ce que nous devons tout laisser au deep learning ou est ce que est ce qu'on pourrait réduire la quantité de données utilisée donc complètement arrêter le deep learning ce serait pas la bonne idée il ya certaines choses qui fonctionnent bien avec le deep learning d'autres où ça ne fonctionne pas bien pour des problèmes très complexes on n'a pas vraiment d'autres choses qu'on peut utiliser que le deep learning comme par exemple la reconnaissance de la langage humain il nous faut vraiment beaucoup de données il nous faut du deep learning pour réussir à comprendre du langage humain mais il faut vraiment pour chaque domaine se demander est-ce qu'on a de meilleur système sans utiliser à chaque fois sans se poser la question d'e-planning donc la question que nous on pose c'est pas tant est ce qu'il faut utiliser le deep learning mais pourquoi pour quel domaine on utilise le deep learning prochaine question par rapport à la reproductibilité donc j'étais dans un lightning talk il avait exactement le problème de ne pouvoir pas pouvoir reproduire un résultat est-ce que si on demande vraiment à tous les toutes les publications de vraiment mettre à disposition toutes les choses qui sont nécessaires pour avoir la reproductibilité est-ce qu'on arriverait à faire ça ou est-ce que vous pensez que le hype est trop grand ouais on voit beaucoup de choses comme ça dans les journaux dans les papiers mais c'est plutôt dans les conférences on aimerait bien que qu'il se passe plus de choses autour de ça j'aimerais bien que les gens qui sont plus anciens puissent planifier ça et mettre ça sur la liste en haut de la liste de priorités et force un peu ça c'est vraiment ce qu'on souhaiterait avoir oui on parle de de régularisation donc on parle on aimerait il faudrait qu'on différencie aussi le privé et le public c'est c'est pas les mêmes les mêmes attentes et prochaine question merci pour la session est-ce que vous trouvez agi pour quelque chose de potentiel agi agi comme quelque chose de possible et pour quand dans l'état actuel de la recherche absolument pas on a actuellement des systèmes qui sont capables de faire des choses très très pointues comme par exemple de la reconnaissance vocale mais elles ont beaucoup de problèmes et beaucoup de choses qu'on arrive à aussi casser même en peu de questions et ce sont vraiment des intelligences artificielles très pointues qu'on ne peut pas mettre qu'on ne peut pas appliquer partout c'est quand même quelque chose sur lequel je garderai un oeil et que je ne mettrai pas complètement non plus en dehors il faut pas oublier non plus que l'intelligence artificielle que les intelligences artificielles ne sont pas des systèmes qui sont bien œuvres dans le vide qui a toujours quelque chose autour il y a éventuellement de la recherche là dessus mais dans la recherche il n'y a pas vraiment de recherche pour d'une intelligence artificielle générale générale parce que c'est quelque chose de très difficile et il y a beaucoup beaucoup d'autre chose qui sont beaucoup plus faciles à étudier actuellement dans le domaine de l'intelligence artificielle prochaine question je vous passe le bonjour du dé 120 je voulais savoir si le problème c'est uniquement dans le deep learning ou aussi pour le machine learning réponse de l'orateur oui je pense que c'est bien sûr aussi très présent dans le machine learning c'est dans toutes les publications qu'on a ce problème de reproductibilité donc c'est dans toute la recherche informatique ce qu'on a présenté c'est vraiment le machine learning en général mais le deep learning et encore plus les effets sont sont plus faciles à observer à cause d'une quantité énorme de données qui est impliquée dans le deep learning donc ça rend les choses beaucoup plus visibles question subsidiaire j'ai l'impression aussi qu'il y a un billet de publication donc qu'on essaye de masser les données jusqu'à ce qu'on est en zilta qu'il y a aussi dans la psychologie quelque chose d'équivalent et dans la psychologie ils ont résout le problème un petit peu en disant que avant de faire la recherche les chercheurs doivent envoyer au journaux je vais faire la recherche là dessus et qu'il doit publier même des résultats négatifs c'est assez compliqué à répondre parce qu'un publié un corps de données c'est assez compliqué on a des conférences spéciales mais il y a énormément d'éléments autour je pense que la question est plus complexe que ça je connais pas de d'engagement concret dans cette direction mais oui ça serait vraiment souhaité mais pour le moment c'est c'est pas fait comme ça je suis dans beaucoup de grandes conférences on m'a jamais demandé ce que je pensais du des résultats je viens je présente mes résultats je présente les problèmes que j'ai eu est ce que je veux les les isoler dans une section de mon publication ou est ce que je veux complètement les laisser de côté et on a aussi des des publications sur sur les les problèmes et les échecs mais c'est souvent du coup pas mis dans le contexte et on a toujours ce problème de reproductibilité derrière une dernière question donc j'aurais une question par rapport à la black box je sais qu'avec des features maps on peut regarder un peu donc dans un algorithme de l'intelligence artificielle donc il y a est ce qu'on peut vraiment ne pas étudier comment fonctionne ces intelligences artificielles donc ça dépend un peu de l'architecture qu'on met en place pour le réseau neuronal qu'on utilise il y a des essais de faire des réseaux neuronal explicables des xnn mais ça dépend vraiment de l'algorithme qu'on utilise et ensuite le pipeline donc le qu'on a au niveau des études en intelligence artificielle est beaucoup plus grand que juste l'algorithme qu'on utilise et pour tous ces autres choses donc par exemple relever les données les préparer pour le réseau neuronal et ainsi de suite est beaucoup plus grand que juste l'algorithme et l'explicé