 d'utiliser ces techniques pour céder. David Krizel est un scientifique de données. Certains le connaissent du 31C3. Il a donné une présentation intéressante il y a deux ans. Apparemment, il ne l'a pas donné qu'ici. Il l'a rendue également internationale. J'introduis David et je vous demande de l'applaudir. Merci beaucoup. Merci beaucoup, bienvenue de ma part. Pour les gens qui sont sur internet également. Et aussi aux gens de Spiegel qui sont présents dans la salle. C'est sympa d'être ici à nouveau. Je suis David Krizel, je suis informaticien de Bonne. Je suis scientifique de données. Je m'intéresse au machine learning professionnellement. J'essaie de récupérer du savoir à partir d'une grande collection de données. Depuis 2014, j'ai enregistré énormément d'articles en rang. J'ai fait une collecte d'articles du Spiegel Online depuis deux ans. Et je n'en ai parlé à personne. Et depuis ces deux ans et demi, il y a deux ans et demi tout à l'est bien. Aujourd'hui, on parle de pressement sans gère. Et je me suis rendu compte que la presse avait une grande influence sur notre nation. Donc première chose, on va regarder toutes les données. Et comme ça, vous pourrez avoir quelque chose à ramener avec vous à la maison. On va vous montrer à quel point la collecte des données est puissante. C'est un exemple qui va se faire comme l'autre. On s'en va voir en plus, et on va regarder comment le monde est devenu digital et numérique. Et c'est à vous de décider, selon nos exemples, Qu'est-ce que ça veut dire que le Spiegel-Mining peut être ? Il y a quelques minutes, il y a quelqu'un qui regarde Spiegel-Online et en fait, chaque nouveau article qui était retrouvé était enregistré dans la collecte. Et ça arrive dans les quelques minutes suivantes après la publication de chaque article. Avec cette méthode, il y a une vue très précise sur les données des articles parce que c'est sans les changements qui arrivent à la suite. Et pour chaque article, j'enregistre plusieurs données, par exemple la catégorie dans laquelle elle est mise et le temps exact de la publication. Et ça explique en deux minutes grosso modo ce que je veux dire avec Spiegel-Mining. En premier, on compte le nombre de articles dans chaque catégorie et on voit que la politique est la plus grande, suivie par le panorama et le sport. Donc ça fait les tante trois catégories des articles. Donc ces trois rubriques, elles comportent la moitié des articles. On peut donc savoir combien d'articles par jour le Spiegel écrit. Par exemple, ces grands traits blancs, ce sont les weekend, on voit très bien. Là où moins d'articles sont écrits. Ici, c'est Mars. Donc là, il y a un problème parce que Mars, en allemand, contient une lettre avec umlaut, donc un problème de coding. Voilà, donc c'était un commentaire. Voilà, ça c'était les articles par jour. Maintenant, c'est par semaine. Et donc, c'est 700 articles par semaine. Donc c'est quand même relativement, c'est beaucoup de... Voilà, ça c'est les semaines de vacances. Très bien que là, il y a moins de choses qui sont diffusées, qui sont écrites. Donc quand on regarde une caractéristique particulière, c'est encore plus intéressant quand on cumule les différentes caractéristiques des articles. Par exemple, ici, c'est panorama et politique. Et par exemple, la science est uni-spiegel, donc l'université relativement... ...décroissante. Donc on prend la longueur des articles. Là, c'est les rubriques, la longueur typique des articles. Par exemple, l'article culture, il est trois fois plus long que un article panorama ou sport, ou bien un article politique. Disons, moitié plus. Bien que ces trois rubriques soient, malgré le fait qu'ils soient courts, relativement dominants. En tout cas, ce sont des articles qui sont plus beaucoup. Donc les rubriques qui ont été supprimés, c'étaient des rubriques qui avaient plutôt tendance à avoir de longs articles. C'est... La plupart des choses qui vont venir dans cette conférence, fonctionnent un peu de la même manière. Ici, on expérimente avec les différentes caractéristiques. Par exemple, selon l'heure, selon le jour de la semaine, et par exemple... Voilà, donc les gros blogs, c'est les moments où beaucoup d'articles ont été publiés. On voit, par exemple, que les moments qui ne sont pas chrétiens, moins d'articles sont publiés. Voilà, donc les carrés bleus, ce sont des textes longs et les carrés... Les autres sont des carrés plus courts. Pour moi, en tant que non-journalistique, non-journaliste. Donc voilà, les articles courts sont... du lundi au vendredi, et puis un peu plus tard pour le week-end. Et entre 5 et 6, ils sont plus longs. Maintenant, je vais vous donner un hand-zeichen. Je fure que ça va. Maintenant, je vais vous donner un hand-zeichen. Si vous voulez, vous levez la main. Qui pense que les gens qui viennent de cercle, qui envoient avec la culture, se lèvent plus tard. En tout cas, on parle de rédacteur. Donc c'est vrai, les scientifiques culturels publient plus tard dans la journée. On voit ici les piques le matin, à 5h, très bas, très peu d'articles publiés, mais il reste plus longtemps le soir. Mais on ne veut pas de préjugés. Je suis allé chez Spiegel Online en octobre, et ils m'ont dit, pour leur présenter ça, que certains articles ont été skédulés, la publication est skédulée et automatisée. Si on vient avec des préjugés, comme ici, on a vu comment ce genre d'analyse fonctionne. On peut maintenant aller une étape plus loin. Et on va parler de données personnelles. Je me suis dit que ça pourrait être sympa si on pouvait analyser les auteurs des articles, le nom des auteurs et... Si on a une liste à l'autor, on ne sait pas qui l'a écrit, mais on sait aussi qui l'a écrit. Quand on regarde les articles, on peut savoir qui travaille avec qui, en plus de savoir quelle personne a écrit et rédigé l'article. Ce qui ne collabore pas beaucoup, on n'a pas d'importance. C'est un partenariat des articles généralisés dans les dernières 2 ans. Chaque paire d'auteurs représente une petite bulle sur le graph que David est en train de nous montrer. On voit exactement qu'il y a des groupes d'auteurs qui sont plus resserrés. Et après, il faut contrôler que ça marche vraiment. On va colorer les bulles selon les ressorts dont font partie les auteurs. On voit en rose le sport. Il y a toutes les autres différentes ressorts. Et sur la graphique, il y a des régions qui sont encerclées. Je ne vais pas nommer toutes les équipes, mais vous voyez le principe. Le poids bleu, c'est le team de Bento qui est la version des jeunes de Spigale. Et le truc qui est important de voir, c'est en fait les bulles grus, grises. On voit que les bulles grus, les bulles grus, c'est en fait les bulles grus, grises. Parce que les grises ce n'est pas possible de les coordonner avec l'impression. Et ce qu'on peut faire, c'est de l'extérieur utiliser l'organicrame des bulles grus. On a l'organicrame de l'entreprise pour voir comment ça influence les gens qui travaillent ensemble. Dans le prochain graphique, on voit que chaque rang, c'est une auteur et de gauche à droite, c'est le temps qui passe. Et une ligne, c'est une article publiée par cette auteur. Et bien sûr, sur les gens qui publient sur les choses qui se passent au quotidien, c'est beaucoup plus intense. Et on peut voir aussi quand les gens sont partis en vacances, parce qu'il y a des grands trous dans leur séquence. Et par exemple, on peut voir où il y a les vacances de Noël. Et bien sûr, on peut voir qui est parti en vacances ensemble et on peut soupçonner qu'il y a une petite relation possiblement. Donc, on voit les candidats pour ça. Et bien sûr, il y a des entreprises qui prennent ce genre de données et les utilisent pour leurs buts. Et là, il y a question qui a posé des congés dans la boîte et qui a posé des congés pour aujourd'hui. Et voilà, vous voyez que ce genre de données peut être utilisé mal seulement. Et donc maintenant, on peut travailler pour travailler de manière structurée. Donc quand vous quand vous pluyez des articles, ce n'est pas vous qui décidez en fait. C'est votre adversaire. De temps et les auteurs, donc son système est à donner dans d'autres collègues de données. Je peux vous dire qui sont vos meilleurs amis, si vous avez une affaire, que sont vos orientations sexuelles, si vous êtes enceinte, que sont vos orientations politiques, si vous êtes croyant, si vous avez des problèmes financiers, ou bien, etc. Donc ça n'a rien à voir avec des fachos de laurie, avec des ... C'est pas une cospération, c'est simplement une analyse des métadonnées qui établissent des bons villes. C'est-à-dire, parce qu'on ne sait pas très bien qui demain pourrait venir au pouvoir voir les choses autrement. Et donc c'est un système de contrôle, de surveillance. Donc c'est un système de contrôle, de surveillance. Donc on revient à notre thème Spiegel Online. Voilà, je présente quelque chose, je ne sais pas si on fera quelque chose de plus important, mais c'est déjà une entrée en matière. C'est quelque chose qui m'a énervé un moment. Donc comme vous pouvez le voir à gauche dans l'image, Voilà, quand ils sont écrits en haut sont les auteurs et en bas ce sont leurs pseudo. Par exemple Marcel Rosenbach. Et donc en bas, leurs pseudo. Donc certains ont simplement un mot et puis d'autres, on en a plusieurs, par exemple très gentils, très sympathiques R et du bon. C'est là que je me suis dit what the fuck pourquoi est-ce que les auteurs sont présentés de manière différente. Et donc j'ai donc j'ai fait des groupes d'auteurs et donc les auteurs qui sont écrits en haut, puis ceux qui sont écrits en bas et quand les auteurs sont écrits en bas et donc quand les articles sont écrits en bas en fait ça veut dire que c'est un article qui ne comporte peut-être que 300 mots donc en fait voilà, là on peut voir à droite sur les articles plus courts, à gauche les articles qui sont plus longs et voilà. Et donc quand un auteur a un nom écrit en haut, en général ce sont des articles plus longs et donc encore une fois donc quand quand on parle des longs articles en plus de ça on a en général le nom de l'agence en plus de ça quand vous voulez des articles courts quand vous voulez des articles courts quand vous voulez des articles courts quand vous voulez des articles courts quand vous voulez des articles courts vous pouvez remarquer où se trouve le nom de l'auteur maintenant on peut utiliser l'opportunité pour aller une étape en arrière on a toute cette quantité de données qu'on a vraiment découpé en différentes catégories classées on a déjà pas mal de bons résultats avec ces petites informations maintenant on va aller voir dans toutes ces données on va aller regarder le contenu des articles et on va essayer de trier ce contenu Spiegel online nous donnent ici une bonne aide on a des tags on a à peu près une dizaine de tags par article l'article de gauche on a par exemple politique, étranger, arabie saoudite et roi salomond arabie saoudite donc on a trié en tout on a à peu près 65 000 tags différents et on a donc trié les articles par tags on a créé des recoupements si on a des tags qui sont liés si des tags ne sont pas liés on les a séparés et on a des articles qui sont plus ou moins liés on a des articles politiques par exemple on pourrait les lier mais il y a beaucoup d'articles en politique qui ne concerne pas Angela Merkel ils ont un lien mais pas pas des liens uniques donc ensuite on va connecter avec des ressorts, tous les tags pour pouvoir créer des liens entre les différents tags et maintenant on voit une représentation graphique ce qui sort ici c'est une carte une topologie de tous les tags qu'on a récoltés avec leur lien et maintenant on va zoomer pour voir ce qu'on a trouvé par exemple l'affaire volkswagen on voit les keywords les tags avec des tailles différentes donc la taille correspond au nombre d'articles où ce tag est utilisé donc après la couleur représente le type d'article dans lequel on a ce tag donc par exemple en beige c'est l'économie et donc grâce aux couleurs on peut récupérer beaucoup de données pour mesurer les différents tags on va regarder encore un peu ici on a des incidents d'avion et on a les thèmes qui se partis entre panorama en vert et la politique en rouge même si la partie politique vient du vol qui a été abattu à la frontière à Ukraine et aux Russes ici on a la crise grecque donc ce n'est pas entre l'économie et la politique donc le gris et la politique et l'economie et on a Wolfgang Schäuble qui apparaît en gris c'est parce qu'il a été tagué sur un article ici on a les élections présidentielles états-uniennes de 2016 donc on voit le keyword email et sinon la plupart des tags concernent la politique évidemment on va désoumer on va faire des zoom out pour regarder à quoi ressemble la carte des élections présidentielles et on voit la catégorie principale c'est la catégorie Auslande politique donc politique extérieure et ensuite on voit tous les différents éléments entre autres la France ici en haut à gauche la mathématique est gnadenlose et là nous voyons les thématiques de la Turquie en juillet et au sud et là nous voyons la Turquie le Puts en juillet et aussi la démocrature actuelle à droite et au milieu il y a la Russie et le conflit en Ukraine et à gauche il y a Israël et le Moyen-Orient zoomz en sortant encore plus et ici au milieu on voit que la thématique des réfugiés est aussi grande qu'une sous rubrique elle-même et qu'elle se mise comme troisième puissance entre l'intérieur et les news de l'étranger et zoomons encore un fois en dehors et là nous voyons des catégories générales en rouge la politique en vert le panorama l'économie et là nous voyons le grand monde des nouvelles et nous voyons aussi quelle taille ça fait et loin de le reste du monde entre guillemets et le sport et nous voyons que c'est loin de le reste des thèmes et comme aussi les sciences et c'est pourquoi nous continuons et on voyons que c'est énorme et c'est pour ça qu'il faut continuer et nous arrivons au forum où on peut discuter des articles et ici on peut placer son propre opinion mais par contre sous les quelques articles cette fonction est bloquée et ce que nous allons investir pourquoi c'est le cas c'est très probablement direct et donc si je vous dis que tout au début j'avais dit que les articles ont été registrés quelques minutes après la publication initiale donc c'était en fait bloqué du début et pas après à cause d'une certaine vandalisme donc regardons la production temporelle et la fonctionnalité de pouvoir mettre ces commentaires et nous voyons que depuis l'été 2015 où la vague des réfugiés était au pique depuis là le pourcentage des articles où on peut commenter et décroître diminuer et donc on voit que la ligne rouge qui montre le pourcentage des articles bloqués monte et dépasse le pourcentage des articles où on peut mettre des commentaires donc on voit que Spill Online a peur de les discussions qui peuvent avoir lieu en ligne et donc cette excuse avec le début des vagues médiatiques concernant les réfugiés et donc à partir de ce moment là on voit très bien que les commentaires ont été interdits de manière plus importante comme ça, les articles c'est possible de poser des commentaires donc on voit très bien ici combien d'articles sont commentés en gris c'est donc et il y a aussi toutes les couleurs donc si un keyword l'affleuche donc 70% en gris c'est le d'orchnit la moyenne des articles qui peuvent être commandés donc si vous demandez ce que c'est le point au milieu de ce schéma je ne sais pas si je vais avoir la question et où on peut commenter c'est certainement un format d'article particulier mais il y a aussi des banques qui peuvent être coupées et où on peut parler de banques c'est certainement tout le monde dans l'esprit on parle des mouvements de grève notamment concernant la luffe donc après tout ce bleu chose de rouge on parle de justice ce sont des articles qui vont avoir avec la criminalité les morts, les attentats donc ici on a peu de commentaires de laiseurs de lecteurs donc ici c'est l'histoire qui concerne le processus NSU et donc voilà on a peu le droit de le commenter on est environ autour des 18% donc c'est encore moins que ce qui concerne la justice on parle des réfugiés, les thématiques liées au droit d'asile donc ça ressemble depuis et voilà donc là c'est ça dépend des thèmes de manière générale c'est pas seulement c'est important d'utiliser ces données pour faire des schémas et là ce sont les yeux c'est vraiment intéressant c'est comme si donc ici c'est le conflit au Moyen-Orient voilà on voit qu'Israël et la Palestine etc on n'a pas de vraiment de commentaires ici on passe du conflit proche au Moyen-Orient au conflit ukrainien et là on voit les commentaires faire du bashing sur les russes c'est ok ce qu'on voit c'est rien d'autre que l'exécution de nos filtres sur l'Iran on peut parler, sur l'Angleterre sur la Turquie on n'est pas trop trop sûr la France c'est intéressant également et si on aimerait bien que cette région de la carte est plutôt bleue mais on regarde les thèmes principaux sont plutôt rouges donc non commentés ici c'est les articles sur la France sur une ligne temporelle donc le bleu c'est les articles avec des commentaires sans commentaire donc on voit en général c'est plutôt commenté et au moment où il y a eu les attentats à Paris du mois de novembre on voit que énormément d'articles sur la France ont été écrits évidemment et la plupart ne sont pas commentés on aime bien commenter sur la France mais pas sur les attentats et depuis on n'a plus trop de commentaires sur les articles et maintenant on va aller un pas en arrière et donc on pense que Spiegel Online a aussi fait des mauvaises expériences avec les commentaires et du coup décidé d'apprendre de ces erreurs pour limiter les commentaires mais c'est intéressant de voir ces statistiques oui c'est important que l'opinion des lecteurs ne soit pas politiquement opportune donc au début on a d'abord trié les articles en plusieurs catégories et ensuite on a lié les articles ensemble par sujets et par tags et par des articles et des articles par propriété plus avancée donc on voit une topologie beaucoup plus complexe et maintenant souvenez-vous de ces tri donc on va repartir sur le thème des élections donc on va parler de ciblages de voteurs donc on trie les personnes par l'âge la couleur de la peau le sexe et le salaire donc on va recevoir des pubs électoraux selon la catégorie dans laquelle on se trouve et donc ça correspond à ce qu'on a à gauche ce serait le côté droit récemment il y avait un article donc le Targassan Tsagashvatsa qui était beaucoup partagé et avait le titre j'ai juste montré qu'il y avait la bombe donc qui parlait du data science dans les élections et surtout d'une entreprise qui s'appelait Cambridge Analytica qui a dû influencer profondement le résultat de l'élection en US et aussi le referendum de Brexit en Angleterre et dans cet article c'était postulé que en fait les deux résultats sont venus avec les pubs qui ont été visés sur des gens particuliers et bien sûr ça fait peur aux gens et ça va en très bien il y a cette boîte qui a créé Trump et Brexit et cette entreprise veut faire croire et en fait leur segmentation des électeurs est tellement précise qu'ils peuvent leur envoyer une pub qui va dans le bon ton pour que le électeur réagit comme est désiré et en fait à mon avis c'est juste la grandeur qui fait de la pub gratos pour cette boîte dans l'article et parce que en bref vous pouvez recevoir de la pub qui est très très bien customisé sur ce que vous pensez et ce que vous désirez voir mais en fait ça demande quand même que vous réagissez de la bonne façon et donc on pourrait dire qu'il a tellement peur d'une pub tellement ciblée devrait plus questionner en fait sa capacité de prendre des bonnes décisions je suis sûr que plusieurs d'entre vous ont eu le même chemin de penser comme moi et je m'attendais pas du applause. Le problème seul se poser des questions sur la propre capacité de prendre des décisions c'est rare qu'on le fasse mais c'est comme ça que se passent les élections et c'est aussi désirable politiquement parce que où est-ce que ça mènerait si des élections seront à cause des facteurs long terme et bien sûr là j'ai vous montrer la collecte des données en grand style et bien sûr sur cette conférence ce qu'il faut faire et je suis d'accord que c'est évident que vous êtes majoritairement que vous agriez avec moi mais la boîte en question dans l'article n'a pas utilisé des moyens de surveillance gouvernementale et ce qu'ils ont utilisé c'est des likes de Facebook donc des données que les gens ont mis eux-mêmes dans l'internet et c'est important de être critique avec la surveillance gouvernementale mais c'est à nous aussi de être critique avec nous-mêmes et se poser des questions qu'est-ce qu'on met dans l'internet encore deux choses ma conférence arrive à sa fin alors voilà c'est une surprise vous que j'ai téléchargé plus de 100 000 articles du Spiegel Online en fait je veux dire 700 000 je peux même savoir ce qui a été transformé dans chaque article parce que je l'ai téléchargé plusieurs fois donc c'est une petite démonstration par exemple j'ai regardé si le titre avait été changé donc là on trouve des choses assez drôles par exemple un titre qui est relativement clair puis ensuite il y a le titre du document html et par exemple 20 janvier 2015 un article qui date du 20 janvier 2015 et donc le 21 un jour après le titre html a changé c'est devenu SAP grandit grandit plus lentement en 2004 qu'on avait estimé donc en fait ils se sont trompés puisque c'était le chef de SAP qui aurait grandi plus lentement en 2014 et donc maintenant l'article s'appelle le chef de SAP grandit plus lentement que prévu j'ai donc différentes versions dans le temps des articles ça c'est quelque chose que je viens peine de commencer donc je ne peux pas encore vous expliquer beaucoup mais voilà c'est une petite surprise maintenant vous avez toutes différentes choses relativement complexes différentes graphiques, différentes caractéristiques qui ont permis de de ranger les articles selon des caractéristiques différentes et parfois compliquées par exemple regardez si des auteurs ont des amis qui qui le proposent souvent oui ça c'est ça qui se passe ça se passe donc je vous remercie voilà donc chaque voilà donc je vous propose que chaque personne qui a vu les différentes possibilités de rangement des articles m'écrivent un mail et me proposent me proposent son idée la plus farfelue pour ranger les articles voilà parce que j'ai toutes les données brutes plus de 70 gb de données donc s'il vous plaît faites appel à votre imagination trouvez d'autres caractéristiques possible et envoyez-moi vos propositions je vais peut-être pas regarder tout de suite j'ai aussi des choses à faire je travaille par exemple mais je vais essayer de faire quelque chose avec ça envoyez-moi s'il vous plaît et soyez créatif je vous remercie d'avoir passé cette heure avec moi voici encore les liens et mon adresse email merci beaucoup voilà donc maintenant c'est le tour des questions merci beaucoup vous êtes très bien comme les mathébatiques peuvent être intéressants et encore une fois si vous avez des questions levez-vous et allez au micro et tous ceux qui veulent partir rapidement Hey, le piffet s'étend devant un publicum ah, il y a un publicum il n'y a pas de temps pour commencer je vois peut-être qu'il vous arrête les gens de la caméra s'il vous plaît, attention la caméra merci beaucoup c'est un bon portrait on va voir si on peut les tester et si les articles changent est-ce qu'on peut mesurer à quel moment se changent les headers ou les titres des articles par rapport au nombre de personnes qui cliquent sur l'article ? oui c'est possible ça fait partie d'un des processus qui est en train d'être testé donc vraiment pour regarder quel type d'article quel type de titre fonctionne le mieux donc on publie des articles avec différents titres et on voit lequel est le plus cliqué et le titre est vraiment changé par rapport au nombre de visites et au nombre de cliqués je voulais demander est-ce que tu as pu faire faire la même analyse pour des articles sur spiguel plus ? oui je les ai ajoutés et j'ai un compte plus qui les décrypte automatiquement je me suis vraiment fâché quand cet article est sorti et j'ai pas pu le décrypter et du coup j'ai écrit un blog sur la manière de les décrypter il faut rajouter à ça que les articles de spiguel plus sont moyennes 1200 mots de longueur donc vous recevez quelque chose pour votre argent question prochaine ? est-ce que tu as regardé le contenu des articles par exemple les... pour voir est-ce que les mots clés et rajouter un article étaient bien choisis pour les mettre dans le monde resort ? on peut regarder par rapport au mot clé les choses qui sont relevantes mais il faut choisir non je l'ai pas encore fait en fait et maintenant une question de l'internet et... et l'internet aimerait bien savoir quel logiciel tu as utilisé pour collecter et analyser les données ok non mais en fait il n'y a pas encore ça chez moi parce que j'ai... j'utilise python python data stick j'ai écrit moi même un logiciel voilà sinon j'utilise pandas pour l'analyse c'est aussi machine learning voilà vous pouvez trouver plein de trucs si vous cherchez sinon j'ai pris tableau c'est un logiciel de visualisation qui avait déjà on peut très rapidement faire des visualisations à l'aide de ça microfi hasto data est-ce que tu as pris des données en temps réel ou est-ce que ou bien plus tard non c'est uniquement des données brutes avec toutes les fonctionnalités brutes qui sont d'abord récoltées et voilà je les ramasse d'abord comme ça et après je fais des opérations dessus mais le téléchargement continue en tâche de fond une une suggestion pour l'analyse tu pourrais regarder les groupes de mots pour comment ils sont attribués donc chaque article à environ 39% de nouveau contenu bonjour une autre suggestion que je formule comme question est-ce que cette interdiction de fonctionnalité de commentaires sur des articles est-ce que c'est une auto censure de la rédaction ou c'est lié avec les lois sur le livre mot si ça n'avait pas été israël je l'aurais pensé directement mais oui effectivement je pense que oui naturellement il faut regarder vous-même les données l'israël c'était pas le seul point qui n'était pas à commenter voilà et ce n'est pas quelque chose qui a une particularité dans le droit allemand est-ce que tu as réfléchi à donner ton logiciel dans l'open source pour qu'on puisse regarder tes analyses non j'y ai pas pensé simplement j'ai quelque chose qui de manière régulière me télécharge les articles c'est open source et vous pouvez le trouver en centaines de variantes différentes mais oui mais on pourrait le comparer à d'autres des dimensions des dimensions des dimensions tu as comprimé en fait tes données plusieurs fois dans deux dimensions et comment tu as le fait pour le simplifier en théorie oui mais voilà sinon il y a des des outils professionnels c'est ce que vous avez vu par exemple dans cette très belle vidéo graphique voilà ça dépend de quelle manière tu filtre les cartes les bords en octobre tu disais que en octobre tu étais dans la réaction du spiguel quelle était leur réaction en fait je sais pas tellement qu'elle soit très positive et intéressé voilà c'est vrai quand j'ai rencontré les gens du spiguel c'était finalement un très bon rendez-vous il a fait une blague que je n'ai pas compris c'est peut-être une question suggestive mais je la lance une idée pour une analyse de suite donc la manière comment tu as analysé la proximité thématique entre des mots ça ressemble un peu à google page rank oui mais on peut pas vraiment faire un très beau graphique à partir de ça voilà je vois les différentes données et finalement je le fais moi-même bon petite discussion technique on va appartient à la suite on revient la cartographie que tu as utilisé c'est des simulations de Monte Carlo est-ce que tu peux nous dire plus là-dessus voilà j'ai pas vraiment travaillé en théorie là-dessus ce sont des choses qui sont établies pour les gros graphiques et puis on voit voilà quand ça quand c'est pas très esthétique on a simplement appuyé sur un bouton est-ce que tu as utilisé Markov sur les données est-ce que tu peux m'écrire un mail s'il te plaît super je vois qu'on va bien rigoler c'est pas seulement la génération d'articles mais il faut que tu puisses dire qu'on ne peut pas dire on va très bien je crois que vous avez envoyé des mails par rapport à ce quelles manières les articles peuvent être traités donc nous sommes arrivés à la fin du talk David a sorti pour répondre aux questions supplémentaires si vous voulez aller voir une bière avec lui merci beaucoup c'était le talk Spiegel Mining par David Cressel nous sommes Strategos et Ron Feist vos traducteurs nous apprécions non à vous