 Prochaine présentation est vraiment super cool, je pense, et j'ai vraiment hâte de la regarder et d'avoir des détails sur ce que c'est. La présentation, c'est sur un projet de recherche qui laisse les utilisateurs voir et contrôler ce qui est fait avec leurs données personnelles. En tout cas, c'est ce que moi j'ai compris dans la description de la présentation. Et donc j'ai vraiment hâte d'en compte savoir plus sur ce projet, pas mort qui va nous parler de comment la plateforme a été conçue et l'état actuel du projet. Donc je veux que tout le monde applaudisse pour mort. Merci à tous, merci, merci. Alors avant de commencer, je voudrais déjà m'excuser parce que j'ai un rume, donc je vais peut-être tousser un petit peu, désolé. Alors ce que je veux faire, déjà, c'est de parler du projet Databox qui a été fondé par un labo de recherche à l'Université de Cambridge et avec d'autres personnaires comme l'Université de Nottingham. Et je vais en parler un peu plus tard. Alors pour parler un petit peu de ce que c'est le projet, je pense que je n'ai pas tant besoin de détails ici mais on va quand même faire une présentation. Donc on vit dans le monde du Big Data. C'est tout autour de nous, dans l'environnement, sur ce qu'on fait, nos petites habitudes. Ça envahit nos maisons et toutes les données sont collectées en permanence. Il y a beaucoup d'opportunités et de challenges, enfin c'est ça. Il y a beaucoup de personnalisation, d'optimisation, de la vie. Plein de choses qu'on peut faire pour aider à ce que notre maison soit le meilleur pour l'environnement. Il y a plein de choses qui nous apportent des bénéfices. Mais il y a aussi des petits problèmes par exemple avec la vie privée. Et on n'est pas toujours sûr de ce qui se passe avec nos données. Je vous ai prévenu que j'allais vous tousser. Alors la nature de ces collections c'est qu'en fait ce qui se passe avec beaucoup de très très grosses collections de données souvent très intimes sont gardées silencieusement. Ce qu'on peut voir ici sur la gauche c'est les objets qu'on peut voir, les réseaux sociaux, les objets. Nest par exemple qui va garder des données. Mais c'est de plus en plus personnel par exemple des appareils médicaux qui vont récupérer des informations plus personnelles. Et c'est des données qui sont très très intimes, qui vont être collectées. Donc les challenges qu'on s'est posés quand on a commencé ce projet c'est qu'est ce qu'on peut faire pour que les personnes concernées puissent contrôler les données et les données qui sont les leurs ou les données qui sont à propos d'eux. Et on n'a pas forcément de contrôle sur ces données. Comment on fait pour donner le contrôle à ces personnes concernées ? Ça se passe dans un écosystème existant qui dit qu'on va déplacer les données même si on commence les données, on sait qu'elles vont déjà être dans le cloud. Donc par exemple on les poste sur Facebook, ça c'est pas surprenant. Mais il y a aussi des données dont on ne s'attend pas forcément qu'elles les ont. Par exemple les internet des objets. Donc on s'imagine que les internet des objets, il y a certaines données qui vont rester dans nos mains qui vont rester sur l'objet, mais en fait pas forcément. En fait des fois elles sont uploadées sur le cloud et ça se retrouve sur l'ordinateur de quelqu'un d'autre et plus uniquement sur nous. Donc c'est un problème structurel en fait de la façon dont on construit nos produits. Internet c'est très fragmenté, c'est difficile de faire des systèmes distribués qui sont efficaces sur internet et en fait avec le cloud ça nous permet de centraliser toutes ces choses là, donc ça permet de mettre nos données sur l'ordinateur de quelqu'un. Donc en fait on part défaut, on s'est mis à mettre nos données sur le cloud parce que c'est beaucoup plus facile parce que les données sont centralisées. Donc le point de départ pour commencer à penser à ça, et c'est pour ça que j'ai commencé à rejoindre cette équipe de recherches à Notre-Dignam, l'idée c'était qu'est-ce qu'on peut faire avec cette empreinte digitale qu'on a par personne. Et c'était un centre de gens qui étaient très disciplinés, c'était beaucoup de gens qui faisaient des maths, plein de bagages différents. Beaucoup de mes collègues disaient si on peut faire un programme magique qui pouvait récupérer le contexte des digitateurs et qui pouvait faire plein d'interactions très intéressantes. Donc on a beaucoup discuté sur le sujet et on se dit mais qu'est-ce qu'on peut faire, qu'est-ce que vraiment c'est le contexte des digitateurs, qu'est-ce que tu veux dire par là, qu'est-ce que tu veux dire par connaître le contexte des digitateurs. C'est devenu clair que c'était pas très défis de ce que c'était, mais c'était toujours le cas qu'il y avait des données personnelles qui étaient utilisées, que ce soit pour les interactions, que ce soit pour tout ce qui concerne le digitateur. Donc la conclusion que je me suis dit c'était que comme je suis un peu paresseux en tant que data scientist je me suis dit qu'est-ce que je peux faire. Si tu me donnes du code qui va me dire quel est le contexte, du coup je me suis dit je vais essayer de créer une plateforme qui va définir ce contexte-là et je vais en fait pour ceux qui sont paresseux ça va le faire pour eux. Et c'est grâce à ça qu'on a créé DataWare et donc l'idée c'était que c'était un programme qui va faire du traitement de données, qui va prendre les données dans ce sujet et qui va les donner sur une plateforme et il va faire du traitement de ces données et les rendre à ce digitateur mes traités. Donc plutôt que de mettre les données dans le cloud, c'était plutôt mettre les données et le code ensemble. Donc ça c'était des images qu'on avait qu'on a commencé DataWare. Comme vous voulez voir, comme vous pouvez voir c'est assez compliqué. Il y a des requêtes, du traitement des données, il y a tout un mécanisme qui permet de faire du traitement. Ensuite ça envoie le code pour qu'il soit exécuté pour que ensuite les données soient envoyées et ensuite ça renvoie les résultats au système de traitement. Donc ça c'était plus ou moins un DataWare, notre projet. Mais quand on a commencé et qu'on a essayé de créer ce projet et comment on pouvait l'utiliser, c'est devenu très clair que c'est un lettre assez compliqué si on veut gérer plusieurs systèmes différents. Quelque chose d'évitant c'était que les gens vont peut-être se voir payer pour utiliser ce système. Il y a peut-être plein de... Il y a des moments où ce serait logique, il y a des moments où ce serait pas forcément logique de faire payer les gens pour ça. Par exemple si c'est une famille, on n'a pas forcément envie de les faire payer pour utiliser des données qui leur appartiennent. Donc on est pas sûr de comment est-ce qu'on allait faire. Par exemple le paiement n'était pas vraiment sûr et aussi comment on allait se organiser et comment ça allait marcher. Donc avec DataWare on a décidé de juste donner quelques interactions et quelques transactions entre les différentes parties et réfléchir à comment est-ce qu'on pourrait partager ces informations. Mais il y avait beaucoup d'idées qu'on avait. Donc on a essayé de faire un pas en arrière et de réfléchir un petit peu plus à ce qui se passe dans ce système et on a décidé que l'interaction entre humains et données devait être changée. Je ne suis pas forcément la personne qui connaît le mieux mais ce que je comprends c'est qu'on veut étudier le plus possible la connexion entre les humains et les données et on essaie de bouger ça pour plutôt que de se centraliser et plus de la collaboration entre des personnes. Et ce n'est pas forcément quelle ordinateur c'est mais plus quels humains l'utilisent. Donc essayer de prendre, d'aller plus loin avec ça, c'est plus vraiment juste l'interaction avec la donnée et l'ordinateur. C'est plus qu'est-ce que c'est la donnée et pourquoi elle est là et pourquoi est-ce qu'on l'utilise. Donc le modèle au niveau c'est qu'on collecte la donnée bien sûr. Ensuite on fait des analyses et on traite la donnée. Ensuite on fait des conclusions sur ces traitements et ensuite on fait des actions en fonction de ces résultats et ensuite grâce à ça on revient, on refait d'autres analyses ou alors on prend des décisions et on change ce qu'on veut faire et on fait plus exactement les mêmes choses et du coup il y a un peu une espèce de boucle comme ça de retour et de changement. Donc c'est comme ça qu'il y a toutes ces computations qui se passent entre les données et les humains, c'est dans notre programme. Il y a un petit problème par contre c'est que ça manque quelque chose sur notre programme donc on va les lister ici. Déjà c'était pas très clair, c'était pas très lisible. Déjà les gens n'étaient pas sûrs d'ouvener les données et pourquoi elles étaient collectées. Et ensuite les analyses qui étaient faites sur ces données et qu'est-ce que c'était les implications de ces analyses. C'était pas forcément très clair. Les gens n'étaient pas forcément sûrs. Donc les actions qu'on va faire dans le passé et leurs résultats en données, c'était pas forcément clair. C'était pas facile à voir, c'était pas facile à comprendre ce qui se passait. La deuxième chose qui manquait c'était l'agencement. Donc l'agencement c'était plus comment est-ce qu'on réagit. Je sais que beaucoup de gens, en tout cas moi, je n'étais pas au courant qu'il y a des raisons pour les données qu'on récupère et la façon dont ça qu'on les collectionnait. Il y a des choses qu'on peut faire différemment. Mais ces données, du coup, ça peut avoir des impacts sur moi. C'est pas forcément clair comment ça m'affecte moi-même. Par exemple, il y a les Smart Cities, le environnement. C'est pas forcément clair ce que je peux faire sur ces données qui ont été collectionnées sur moi. Et dans ces cas-là, même si je sais que ces choses existent, c'est difficile pour moi de les utiliser, c'est difficile pour moi d'en faire quelque chose avec ces données. Donc en fait, on manque de choses qui nous permettent d'agir sur ces données. La troisième chose, c'est le manque de négociations. Donc ça prend en compte la dynamique d'une interaction. Quand on prend une décision sur un système, c'est pas forcément notre décision pour toujours. Peut-être qu'on va changer d'avis. Peut-être qu'on va changer d'avis sur comment on réagit, interagir avec un programme. L'environnement peut changer, la vie peut changer. Donc ces systèmes marchent toujours en binaire, c'est-à-dire oui, je veux, non, je veux pas. Et très souvent, on ne peut pas vraiment revenir en arrière et dire non, je veux plus ça en fait. On voit de plus en plus des façons d'annuler des décisions qu'on a prises, mais ce n'est pas toujours très clair, ce n'est pas toujours très facile, surtout au moment où on s'inscrit et on donne ces données-là. Donc, c'est une donnée, l'idée de cette data box, qui est une data-ware version 2. On peut toujours bouger le code vers les données pour avoir plus de contrôle sur les données, puisque ça a lancé sur du matériel que vous contrôlez. Voilà. Donc, on essaie de faire plus attention à comment l'accès aux données va être géré. On a essayé de voir comment contrôler la communication et contrôler aussi toutes les entrées et sorties qui arrivent. En fait, je n'ai un peu rien à faire de ce que tu calcules sur ma boîte tant que tu ne vois pas les résultats. Donc, il n'y a rien qui se passe si tu n'as pas les résultats. C'est pareil, s'il y a un arbre qui tombe, je trouve que dans la forêt, ça fait du bruit, juste pour les ordinateurs. Donc, tout ce qui est communiqué de ce matériel vers l'extérieur, je peux le vérifier et je peux regarder ce qui s'est passé et pourquoi il y a eu un leak et comment ça a liqué et fixer la source, en fait. Donc, c'est une espèce de détection de fraud. Donc, Henri télécharge une sa banque. Ensuite, il fait une grosse dépense en Thaïlande et donc, la boîte peut regarder TTIU et Henri dit la boîte dit non et donc, on n'a pas de fraud du fait du refus de l'accession. Voilà. Donc, la banque ne sait pas où il est. C'est juste que la banque, c'est qu'il n'est pas en Thaïlande ce qui est beaucoup plus petit et plus précis comme information. Donc, comment est-ce que c'est implémenté ? Le modèle, c'est qu'on installe des apps, des applis. Donc, on utilise la métaphore des applis pour les smartphones. Les apps font très vite les données. On a des drivers, donc ils vont gérer les données. Donc, ils décrivent les données qui vont être utilisées par un apps, par un manifest. Et on transforme ça en SLA, donc License Acrimon. Service Level Acrimon, qui est... Donc, vous avez une app qui a besoin de... aux apps, votre Smart Watch. Et donc, vous pouvez décider à quelle donnée... Ah, Smart Light, donc la lumière. Donc, il va pouvoir décider s'il a accès aux lumières au premier étage ou aux réchossées. Voilà. Et donc, comme ça, on voit aussi, ça nous permet vraiment d'être très granulaires sur ce qu'on a le droit, enfin, ce qu'on veut partager ou pas. On utilise de la conténérisation pour une autorisation de base, ce qui nous donne une interpellance à la plateforme entre les différents composants, aussi. Et ça simplifie aussi le management du système. La gestion du système, ça nous permet de tout gérer de façon homogène. Quand je parle de façon indépendante, c'est pas tout à fait super. On a fait des rapports, ou des utilisateurs qui disaient que les choses ne fonctionnent pas. Et la raison pour laquelle ça ne fonctionne pas, c'est parce que c'est en train de tourner sur Windows. Parce qu'ils utilisaient Docker pour Windows, qui est tout nouveau. Et on avait pas vu... On savait pas que c'était la raison pour laquelle les applications n'étaient pas transfonctionnées, puisqu'on a tout testé avec des environnements Unix. Et ils réussissaient à tout lancer, mais en fait, les scripts de lancement ne fonctionnaient pas. Donc il y a un driver app, il y a l'arbitre, il y a différentes boîtes. Donc... Le manager de conteneurs, les conteneurs, bizarrement, surtout le cycle de vie. Donc lancer ce qui est en premier, ensuite et après. Et donc, c'est celui qui lance tout. L'arbitre, c'est le conteneur qui génère les tokens pour tous les deux. Jeutons d'accès. Et il y a un macaroon. Non, pas le biscuit. Donc c'est un macaroon. C'est un cookie... c'est un meilleur cookie. Un meilleur gâteau. C'est... ah, ok. Donc c'est un jeton d'accès que tu peux déléguer. Donc les data stores, donc c'est pour la persistance des données. Donc on peut voir ce qui est enregistré par les différentes applications. On a aussi un middleware. Donc pour la communication avec ces data stores, c'est basé sur 0MQ. Et on a un catalogue hypercat pour la discréditation et la probabilité des données. Donc une application peut découvrir si elle a les données, si elle a besoin. Et sinon, au milieu, il y a le network. Donc qui génère les connexions réseaux pour toutes les applications. Et on a AQESA en donner une interface virtuelle pour chaque application. Et donc, chaque application qui va être connectée aux connexions de connexions et aux... et aux data stores. Donc, comme je l'ai dit, l'application y a un manifeste donc c'est qui donne les... les métalonnées. Donc ce que ça va avoir besoin comme accès, comme... est-ce qu'il va y avoir besoin d'avoir des accès à distance ou pas? Ou est-ce qu'il y a des choses à faire avec l'extérieur de la boîte? La différence entre app et driver c'est qu'un driver peut parler avec quelque chose qui est à l'extérieur de la data box. Donc ce processus d'installation comme on disait c'est... on essaie d'installer une application. Il dit, oui, tu peux avoir accès à ces données, ces sources de données. Et... du coup, on va avoir des jetons qui vont être générés, qui vont donner l'accès. Et les applications vont être connectées au réseau correct et les conteneurs sont tous lancés. Donc les jetons qui ont été données permettent l'accès aux différentes datastories dans le système et donc pour prouver que cette application a effectivement été autorisée pour accéder aux données. Donc on va avancer dans ce... rapidement. Donc ça c'est une description du middleware, donc qui est basée sur des protocoles standardisées. Donc co-AP. Lancé sur 0MQ on a un backend qui enregistre tout et on a JSON text et des... pas de données binaires. On a de la sécurité. On va... on aimerait aussi plus tard distribuer la... distribuer ça sur plusieurs machines, donc avoir une communication distribuant entre différents datastories. C'est la première version. C'était... ça a été fait en vitesse. En... utilisant... ultra-vite. Et donc pour gérer des... données de... de... de capteurs relativement rapides. Voilà, donc c'était plus rapide. Donc qu'est-ce que vous faire avec la Xbox ? Qu'est-ce que vous pourriez faire ? Donc les interactions qu'on va supporter qu'on devrait être mieux. On peut faire des choses avec des données physiques que vous ne pouvez pas faire aussi facilement en regardant. Donc c'est beaucoup plus facile d'y penser en fait. On peut... on regarde et on voit quelle est la configuration. On voit les situations comme par exemple où on doit configurer ça pour que pourra qu'il s'aider le compteur électrique. Et ça fonctionne que si la clé verte a été inségrée et que si mon partenaire va aussi... là aussi brancher dessus comme ça tout le monde est d'accord. Ou alors si c'est à côté de la maison ou pas de façon, ça permet de mieux contrôler l'accès aux données. Donc c'est... ça c'est aussi bien associable à l'accès physique aux données, enfin l'accès physique à la boîte. Donc c'est pratique pour les métaphores. Un des membres du team a construit quelque chose c'est plus ou moins notre aide des IBM qui permet de construire des applications en... en faisant du drag and drop de différentes opérations et des sources de données. Et donc ça prend ce que vous avez fait et le produisait et ça va faire un conteneur et hop là pendant l'app store. Et donc c'est relativement facile de créer des applications comme ça. Voilà. On a aussi de la visualisation des données. Donc vous prenez une image SVG et puis en faire des composants. Et ensuite vous pouvez faire des transformations. Comme ça ça va animer pour les données. Donc les premières démonstrations avaient par exemple une image d'un... lorsqu'il y avait un tweet. Et donc la première version c'était avec un président et en fait à chaque fois qu'il y avait un tweet qui venait le visage s'animait. Donc ça permet de rendre les données plus lisibles en ayant de meilleures visualisations. Ça c'est un petit morceau de travail que j'ai dû voler. Mais c'est un de mes étudiants en thèse qui a fait de la génération de risques. Donc comme vous voulez voir, quand on a ces périphériques comme ça, on peut voir qu'il y a des dix nombres qui sont ludes que ce soit la température, que ce soit plein de données différentes. Est-ce que c'est possible de prendre ces données dans le temps et de les traiter comme des données du temps sans vraiment se poser la question de ce que c'est derrière, d'où vient ce nombre. Donc toutes ces données statistiques, on va voir s'il y a des correlations avec, pour voir s'il y a des risques à donner l'accès à ces informations de contexte. Est-ce que c'est possible de se dire pour cet appli qui a accès à cette donnée un petit peu trop souvent. Est-ce que c'est logique qu'il y a accès ? Par exemple, si on voit ça deux fois par mois, je pense que ça va, mais après ça dépend, mais il faut voir combien selon la donnée. Donc on pourrait construire des choses comme ça et les résultats qu'on a eus jusque là n'étaient pas trop mal. Donc c'est bien de mettre ces résultats ensemble et de se dire à ce que cet appli est bien, à ce que cet application A est bien, cette application B est bien ou pas. Et si l'application entre elle du coup ça peut révéler des informations dont on ne se doutrait pas. Quelque chose d'autre qui a popé immédiatement quand on a passé cette idée avec de ces boîtes de données, c'est que c'est difficile d'utiliser les big data de manière traditionnelle quand on met tout dans le cloud. Donc on y a pensé différemment et on s'est dit on devait faire du small data au lieu du big data. On devrait peut-être faire de la computation en avance au lieu de le faire après. On n'a pas besoin de créer ces espèces d'énormes masses de données d'avoir des données sur tout le monde partout. Peut-être que ce serait mieux de minimaliser le traitement de ces données et de le garder en privé et de les agriger de manière personnelle avant de les envoyer sur ce cloud. On avait plusieurs buts avec ce projet. L'un d'eux c'était évidemment d'entraîner des modèles avec des petites échantillons et d'utiliser ces données et d'en faire quelque chose et ensuite, une fois qu'ils étaient prêts d'entraîner, de les envoyer à plein d'endroits et ensuite, dans ces data box individuels, redéfinir ces données et de les personnaliser selon les utilisateurs pour que ça correspond à ce qu'ils veulent. Donc en fait, ça nous permettait d'aller plus loin rapidement parce que ces modèles étaient très précis. Donc comment est-ce qu'on fait du machine learning par exemple en utilisant ces analyses et ces données à la grande échelle. Donc si on a par exemple une data box pour un pays entier. Donc comment est-ce qu'on fait si on a une aussi grande échelle au travers de tout un pays ? Donc je vais vous présenter du coup un projet qui est le plus gros qu'on a créé avec la data box. Ça a été fait avec BBC. C'était une collaboration dont on a parlé sur un article de blog. L'idée c'était que on l'a appelé la BBC Box. Donc l'idée c'était qu'on prenait les données des personnes qui ne voulaient pas forcément avoir accès à ces données, qui ne voulaient pas forcément les partager. On les prenait sur la BBC, sur la BBC Box à l'époque, où on prenait aussi sur des comptes Instagram, des comptes Spotify. On utilisait ces trois images. Il ne voulait pas forcément que BBC n'ait accès à ces données. Il n'avait pas de raison de les garder. Mais du coup, il voulait les prendre, ces données et les mettre dans la data box. Du coup, la data box prenait les données et les traiter. Et ensuite, grâce à ça, faisait un système de recommandation. Et le recommandation avait du sens pour telle personne, basé sur quelle est ton activité en ligne. Mais du coup, BBC n'avait pas accès directement à vos données. C'était la data box qui avait accès à vos données. Il y avait d'autres applications qu'on a fait qui ont utilisé une ancienne version de la data box. Une d'entre elles, c'était une idée... On explorait l'idée de pouvoir actualiser ces informations. Donc, vous pouvez imaginer, par exemple, qu'il y a plusieurs personnes qui ont participé à cette étude. On assemblait, par exemple, un film d'horreur, avec plein de petites morceaux. L'idée, c'était que c'était la data box qui faisait le film et qui renvoyait l'image. Et qui mettait des lumières différentes dans la maison. Parce que ça correspondait au film. Mais du coup, c'était BBC qui mettait le film. Mais BBC n'était pas au courant de ce qui passait. Ce qui se passait, ne contrôlait pas les données et ne contrôlait pas les lumières directement. C'était la data box qui a la contrôlé. Donc, l'idée c'est de donner ce accès à la data box et de contrôler l'environnement, contrôler nos objets sans vraiment donner l'accès entier à un parti tierce. Donc, voilà, ça c'est data box. Vous pouvez le voir. En tout cas, c'est la nouvelle version de data box. Comment les interactions marchent ? Comment est-ce que ça marche mieux ? Pour comment ces informations, cette interaction humain donnée marche ? Ça marche mieux, mais c'est depuis en plus clair qu'on avance dans ce projet que c'est bien, mais c'est pas encore assez. Il y a encore beaucoup de traitement qui se fait dans une boîte noire. On n'est pas forcément sûr de ce qui se passe, de où ça va. Ce n'est pas forcément clair ce que c'est le statut de ces applications quand elles sont exécutées dans le système de data box. On a tout cet audit qui est possible, qu'on peut récupérer les informations et qu'on peut créer quelque chose mais ce qu'on a à l'heure actuelle, ce n'est pas assez riche. On a pas mal de mécanismes qui permettent de faire de l'audit, de faire des requêtes qui nous permettent de co-ordiner ce qui se passe dans la data box mais malheureusement ça ne s'articule pas de la façon dont on veut. Je ne suis pas un députat. Dans la vraie vie, quand on partage des données, c'est conçu pour la personne qui reçoit les données. C'est basé sur le contexte de la personne qui va récupérer. Je vais parler à quelqu'un, par exemple, avec un collègue, je vais dire certaines choses que je ne vais pas dire à ma femme. Je vais parler des choses que je ne vais pas dire à mes collègues. Par exemple, il faut vraiment qu'il y ait un contexte à qui je vais parler. Je ne vais pas tout révéler à tout le monde. La façon dont on gère ça dans la data box, c'est un petit peu... Il faut prendre le temps de le faire nous-mêmes. Ce n'est pas super facile. C'est souvent quelque chose qu'on fait une fois et on ne peut pas forcément revenir dessus. Et la façon dont ces permissions sont données et contrôlées n'est pas forcément clair. J'ai parlé un petit peu d'articulation. Une citation sur un papier que j'avais lu qui était bien. Mais du coup, la façon dont vous m'avez parlé, ce n'était pas forcément la plus claire pour tout le monde. C'est pour expliquer ces concepts. L'exemple, c'était qu'on marche sur une rue qui est très... Il y a beaucoup de monde. On veut aller quelque part. On a une destination où on vous avait. Mais en faisant ça, on doit faire beaucoup d'articulation. On doit faire en sorte de ne pas taper contre les gens. On ne doit pas marcher sur la route et se faire taper par un bus. Cette coordination, au final, on compte sur les autres pour que tout le monde soit coordiné. Pour faire ce que nous, on veut faire, c'est-à-dire aller à la destination, il faut que tous ces choses-là se coordinent entre elles. La tata box marche comme ça. C'est de la coopération. Il y a beaucoup de contexte qui est prêt en compte. Nous, à l'heure actuelle, on ne fait pas assez pour que l'articulation marche, pour prendre en compte le contexte des autres et pour faire en sorte qu'on puisse avoir le résultat final qu'on attend. Le problème, quand c'est conçu pour quelqu'un qui reçoit quelque chose, c'est que la donnée est en fait utilisée comme une limitation entre les autres. C'est un peu une vieille façon de faire les choses. C'est une relation qui est définie pour faire certaines choses qui ne sont pas forcément les mêmes. Par exemple, une carte de crédit est utilisée de façon... De la façon de faire un pack pour payer, ça peut aussi être utilisé pour vérifier que c'est la bonne personne. Ça peut être utilisé pour confirmer un achat entre un magasin, entre la banque. Et donc il y a plein de parties différentes qui sont qui utilisent ce système. Et c'est clair que tout ce qui... les données personnelles, rien n'est privé en fait. Au final, très souvent, il y a plein de contexte différent et plein d'autres parties qui ont un lien et c'est pareil quand on voit ça comme des gens qui viennent chez nous au final. Dans notre maison, ils font partie de nos données et ils sont impliqués et ça implique plusieurs personnes. C'est pas que chez moi, c'est pas que ma maison. Il y a d'autres gens qui viennent et donc même si je veux avoir contrôle sur ça, il faut quand même prendre en compte les autres choses. Ici, je voudrais que vous leviez la main si vous pensez que vos emails sont privés. Mais en fait, la plupart du temps, ces emails sont venus de quelqu'un, donc ça implique toujours d'autres personnes au final. Donc d'une certaine façon, ce qu'on essaie de faire avec Databox dès le début en fait, notre idée était bugée parce qu'on voulait contrôler des données sauf que comme les données sont par nature sociale, on peut pas les garder privés. Donc on va essayer de conclure un petit peu cette présentation. Il y a beaucoup de challenges qu'on a eu que Databox au final n'a pas réussi à résoudre. Au final, on a fait que toucher à la surface du gros problème. Les challenges qu'on a sur la la discoverabilité des utilisateurs menés par les utilisateurs, c'est facile quand on collectionne des données et qu'on les met dans le cloud. Parce qu'on sait ce qu'on a et puis c'est centralisé. Mais comment est-ce qu'on sait qui, dans cette population, a une Databox qui a cette Databox et qui peut avoir les informations qu'on a besoin ? Comment est-ce que l'utilisateur peut savoir quelle application l'utilisateur veut installer ? Comment est-ce qu'on sait quelle application peut faire quoi pour cet utilisateur ? Comment est-ce qu'on fait pour faire en sorte que les utilisateurs installent les applications qu'ils veulent et qu'ils sont contents avec ces applications ? Comment est-ce que vous faites ce processus de discoverabilité ? Il y a un nombre de mécanismes qu'on peut utiliser, donc les permissions par exemple ou un système ou on se note de manière sociale avec les gens. Donc on peut par exemple se mettre 5 étoiles à quelqu'un. Donc ça c'est un moyen de se noter entre nous et c'est un moyen de découvrir les choses dont on a besoin. La clarité il y a la clarité ça reste un problème il y a beaucoup de choses qu'on essaie de proposer. Il faut que ce soit facile de voir les données dans la data box mais c'est très difficile de voir l'impact que les autres ont sur ces propres données. Qu'est-ce qui va être révélé aux autres par rapport à ce que les autres ont déjà révélé en termes de données. Donc ça c'est vrai pour les données qui existent mais aussi pour les données qui vont apparaître dans le futur. Ça c'est une question qui revient toujours sur la discorverabilité quand on essaie de découvrir ce que nous on a et ce que les autres ont. On a aussi des fois besoin de modifier des données. Peut-être qu'un jour on a enregistré des données qui sont fausses et on peut pouvoir revenir et les changer. Donc ça c'est un défaut aussi dans la façon dont on a conçu notre programme c'est qu'on a délibérément décidé de ne pas laisser faire ça. Donc au final on veut que les utilisateurs contrôlent complet sur leurs données. Mais évidemment il n'y a pas que l'utilisateur qui est impliqué. Peut-être qu'il y a d'autres dépendances qui peuvent avoir des problèmes mais ça peut augmenter les risques. Par exemple si on change quelque chose on peut avoir moins d'assurance sur ces données-là. Donc si par exemple vous avez un Fitbit et ça va vous donner des informations qui vont être envoyées à votre assurance. Donc si par exemple tu mets ça sur ton chien du coup ça va fausser les données. Parce que du coup il va leur permettre d'utiliser des choses de leur assurance dont il n'y avait pas accès normalement en trichant. Donc au final il y a un problème de confiance entre les deux parties. Les données, alors actuellement sociales c'est comme ça. La plupart des données sont sociales donc on veut pouvoir déléguer l'accès aux données et on veut aussi pouvoir enlever l'accès aux données. On veut savoir ce qui se passe sur les données. On veut savoir qui les modifie avec qui elles sont partagées. On veut aussi pouvoir enlever ces permissions. On veut aussi pouvoir négocier si on a par exemple plusieurs data boxes dans une seule maison. Ce serait bien si ma data box avait accès à quelque chose, à quelques objets. Ce serait bien qu'une autre data box ait aussi accès pour avoir des partagées pour qu'elles aient des métriques qui soient logiques. Et ce n'est pas forcément ce que nous on veut. C'est pour ça qu'il serait mieux d'avoir un moyen de négocier et de décider quelque chose de clair. Mais à l'heure actuelle on n'a pas vraiment de mécanisme pour supporter cette espèce d'interaction sociale entre les données. On a besoin de voir ce qu'on peut faire quand on révèle ces données. Qu'est-ce qu'elles vont faire avec ? Une fois qu'on a donné ces données qu'on les a révélées, qu'est-ce qu'il va se passer avec ? Et je pense que dans une personne technologique ce qui va être le plus important ça va être de donner les données. La partagée des données on veut aussi avoir des choses en ligne. Pas forcément co-localiser avec la data box. Donc on va avoir un système de rendez-vous et ça va être d'identité qui soit et qui ne soit pas non plus qui ne tape pas dans la vie privée de ces utilisateurs. On a eu un projet qui a été relativement long qui était 18 mois sur le support des idées de partage de ces données surtout pour des données qui sont de base partagées. Tout ce qu'on a dû faire c'était mettre le compte utilisateur dans la data box pour gérer l'accès aux données. Donc comme ça on pouvait dire toi tu peux dire ça mais cet utilisateur à droit de voir ici c'est d'autres de voir cela. En fait ce qui s'est passé à mon avis que ça devenait relativement complexe parce que qu'est-ce qui gère ces comptes ? Donc avec les systèmes de base actuel il n'y a pas de façon de... il n'y a pas moyen de se passer d'un route, un utilisateur route un utilisateur administratif. Donc c'est le cas aussi dans d'autres projets qu'on est en train de faire. Donc lorsque vous regardez aux données personnelles c'est en fait ce qui est plus important pour la plupart des gens c'est pas que l'idée que vos parents voient vos données c'est beaucoup plus effrayant que votre fournisseur d'accès parce que vous en avez un peu rien à faire. Donc il y a une espèce de grosse différence là si vous introduisez des comptes comment est-ce que vous voulez gérer et qui les gère et qui va savoir ce qui se passe. Donc on a essayé de gérer la chose de façon à avoir une data box pour une personne ce qui ne résout pas le problème de données sociales et donc on a essayé de répliquer les données dans un... dans une... de répliquer les données sur plusieurs data boxes mais du coup ça a d'autres problèmes donc on se retrouve avec une dévolution donc en fait on en fait quelque chose de social il suffit d'en parler avec les gens dans la maison avant de révéler des données vers l'extérieur voilà et donc donc c'était deux challenges intéressants ce genre d'interaction et ce genre de besoin pour le système et donc avec ça j'ai fini, merci Est-ce que vous avez des questions ? Merci beaucoup pour cette présentation si vous avez des questions venez au micro s'il vous plaît Merci, merci Je me demandais comment est-ce que vous pensez que ça va s'agrandir en dehors du monde de l'éducation comment est-ce que vous pensez que ça va grandir en tant que modèle en dehors de la recherche qu'est-ce que vous pensez qui doit se faire pour que ça arrive à une plus grande échelle donc vous parliez de l'estonie je suis pas tout à fait sûre de comment ça marcherait dans cet exemple particulier pour que ce soit adopté à grande échelle il faudrait que tout soit complètement réimplementé donc ce serait moins un projet de recherche et plus un projet commercial un des plus gros challenges c'est sur quelle application ça doit être donc il y avait plein d'intérêts de la part des entreprises qui font des intérêts des objets le problème c'est que on a toutes ces opportunités de collectionner toutes ces données mais on n'est pas forcément sûr de qu'est-ce qu'on peut faire avec ces données mais du coup d'autres sens là c'est il n'y a pas forcément besoin de quelque chose comme ça au final c'est jamais assez intéressant pour être utile ce projet-là donc avoir des vrais cas d'usage d'utilisation je pense que ça pourrait être bien et ça pourrait aider quelques-uns que j'en ai parlé donc par exemple il y a BBC ou celui de l'université de York ils ont commencé à être plus intéressés à ça donc on peut voir qu'il y a quand même des cas d'utilisation qui arrivent mais c'est quand même assez lent et on a du mal à les trouver pour que ce soit adopté de manière plus globale c'est la plateforme et permettre aux gens de développer beaucoup plus facilement dessus si on aurait écrit tout parce que là c'est des professionnels qui ont été engagés et ça a marché parce qu'ils les ont engagés et ils l'ont fait mais pour d'autres entreprises ce serait beaucoup plus difficile que d'autres services le fait que l'idée qu'on ne peut pas accéder à toutes les données quand on a besoin il faut tout le temps demander quelles sont les permissions qu'il faut demander à chaque fois pour la plupart des gens c'est un concept complètement inconnue donc l'idée de donner ce paradigme, cette façon de penser ça va prendre beaucoup de temps à faire adopter merci pour la présentation est-ce que vous diriez qu'en fait quand vous avez ça est-ce que vous vouliez faire ça plutôt pour les IoT ou pour autre chose ça a changé au fur et à mesure on a commencé avec les médias sociaux mais les chat, les box et en fait on pensait plus les choses avec les données financières avec les banques et au fur et à mesure que ça a évolué et aussi ça a commencé à devenir quelque chose et donc on a un collègue qui travaille déjà avec les IoT donc c'est de plus intéressant pour nous et en tant donné le contexte domestique les IoT bien sûr que c'est quelque chose qu'on va avoir à l'internet des choses bien sûr les données financières sont toujours très intéressants les données de santé sont aussi médicales, sont aussi très importants mais d'un certain côté je ne pense pas que c'est super intéressant en termes des challenges en fait c'est plus ou moins les challenges en soi sont les mêmes c'est quelque soit la source des données on s'en a perçu que c'était que que le problème c'est plus que les données sont inéraments sont inéraments sociales autre question ok je voudrais que vous élaboriez si vous pouvez à d'autres niveaux donc vous avez parlé de niveau dans une maison par exemple au niveau d'une personne donc des niveaux au final je voudrais que vous parliez un petit peu de niveau de communauté par exemple est-ce qu'il y a des choses par exemple pour contrôler la température dans le salon est-ce qu'on pourrait faire ça est-ce qu'on pourrait faire en sorte que d'autres gens dans une communauté qui viennent à la maison puissent aussi changer la température est-ce que ça c'est quelque chose vous pensez qu'il faut pas que ce soit le cas est-ce qu'on peut faire quelque chose ou que ce soit tous les voisins si on a d'autres niveaux voilà sur un quartier il y a d'autres questions qui se posent au final selon la taille et donc j'aimerais que vous élaboriez un petit peu pour utiliser la data box dans ces cas-là donc c'est un challenge qui est définitivement intéressant et c'est la raison pour laquelle on voudrait partager ça un petit peu plus et agrandir ça l'idée que comme je comprends en tout cas c'est qu'on veut faire en sorte que les gens fassent un peu plus attention à l'environnement c'est une démographie, c'est des gens comme ça qui veulent faire ça et leur consommation par exemple c'est quelque chose que les vols pensent ça ça marcherait par exemple mais si on le fait à une échelle plus grande par exemple tout un pays ça a beaucoup moins de sens de le faire parce que c'est intéressant de le faire à niveau d'une maison parce que du coup c'est un modèle qui est assez standard et qu'on peut réutiliser et on peut reproduire des modèles et c'est pour ça que avoir plusieurs data boxes en même temps peut être intéressant si on les a ensemble plutôt que les avoir dans une échelle très très grande et on a commencé à réfléchir à ça et au niveau technique on a utilisé AOL qui est un moyen de traiter des données en OCaml si vous allez voir sur OCaml.xyz sur ce site vous avez la plus d'informations sur le sujet c'est en 18 mois on a eu des centaines de milliers de lignes qui ont été écrits c'est assez impressionnant on n'est pas encore au point où on peut déployer ces idées ou en tout cas pas à cette échelle c'est quelque chose que j'aimerais vraiment beaucoup voir dans les prochaines années et surtout à Cambridge par exemple ça pourrait être un bon début on peut vraiment déployer ces idées là bas et on pourrait vraiment voir comment ça se passe grâce à ces données qui sont à une échelle qui est un peu plus grande qu'une seule maison donc ça pourrait être intéressant au niveau domestique pour ça Est-ce que vous pourriez détailler sur la confiance qui est faite aux applications spécialement donc demander des données auxquelles vous n'avez pas basé sur d'autres données sans vous le vouloir ça c'est un des gros challenges qu'on n'a pas vraiment adressé si une application que vous installez demande à accéder à des données auxquelles vous n'avez pas donné permission elle ne peut pas travailler elle ne peut pas pouvoir les accéder à accès à certaines données et travail sur ces données et les résultats vont quelque part à la maison vers la centrale et ajoute d'autres sources que vous ne connaissez pas ça on ne peut rien y faire ça c'est un gros challenge en fait lorsque les données que vous pensiez sont ok à partager votre problème une autre question quand plusieurs applications essayent d'accéder la même donnée est-ce qu'il y a un standard que vous utilisez par exemple de standard sémantique par exemple les standards du web par exemple parce que vous avez quelque chose de similaire pour les données on n'a pas vraiment essayé de standardiser toutes ces choses là alors actuellement les applications commencent les données et donc ces applications savent chaque donnée donc chaque application partage à ses propres accesses que ses propres données c'est ça alors non pas forcément les applications doivent suivre des specs du coup comment est-ce que vous savez si ces applications donc par exemple le solid project là c'est un autre projet cloud comment ils savent par exemple en ces cas là alors de ce que je comprends de ces projets là il se concentre surtout sur la plateforme et le contrôle dans la plateforme et c'est pas vraiment forcément contrôler l'application ce que l'application fait en termes de traitement sur les données donc je pense que c'est pas vraiment exactement la même chose je pense que solid a bougé sur un autre truc alors actuellement c'était juste par courir les données mais là c'est plus vraiment la même chose sur les périphériques données la dernière fois que j'ai regardé c'était c'était assez unique la façon dont il gère leurs données donc au final on fait des choses assez différemment donc par exemple eux ils avaient qu'un seul qu'un seul périphérique qui est utilisé qu'un seul objet et en fait ils utilisent tout ça sur un seul objet physique au lieu d'avoir des choses sur le cloud donc c'est pas exactement le même projet au final je suis curieux de savoir si vous avez des données des des à propos à propos du problème de conscience ou est-ce que les gens sont conscients des problèmes impliqués donc non non j'en ai pas on avait fait une, on avait revu de la littérature prévue tout ce qui a été des papiers à propos de la compréhension de leur vie privée mais on n'a pas pas vraiment de statistiques dessus de la conscience que la population a de ce genre de stèmes lorsque j'étais à Nottingham on faisait des sur des sondages que la ville faisait tous les ans et si je me souviens bien il y avait des questions dont les réponses n'avaient pas de sens d'une façon technique est-ce que vous utilisez internet et la plupart des gens disaient non je n'utilise pas internet une autre question était comment est-ce que vous parlez d'avec des amis et les mêmes gens qui l'utilisaient par internet disaient qu'ils utilisaient facebook donc c'est un petit peu difficile pour les sondeurs de récupérer les données en fait à propos de la compréhension des données et certains de ces concepts sont relativement abstraits et beaucoup de choses sont très dynamiques et c'est très dynamique, je peux donner une question et je réponds d'une façon et si la question est un petit peu formulée différemment ça va donner un autre contexte et je vais donner une autre réponse et donc c'est les... voilà les influences plus de questions, merci je voudrais que tout le monde applaudisse s'il vous plaît, pour mort