 Le sujet d'aujourd'hui de cette présentation est un étudiant sur un projet réalisé par Octo pour une grande compagnie européenne de l'Ils-Insurance. Le purpose de cet étudiant est d'étudier pour l'officier du chef de l'office, une nouvelle approche des modèles de prédiction sur l'Ils-Claims basé sur des sources de données. Vous connaissez probablement cette histoire de succès, par exemple, pour l'exemple américain et l'Edge, nous avons travaillé sur les mouvements de stock, surtout les index d'Edge et John, en utilisant des données de Twitter comme représentation du marché de la consommation. Et le résultat de cette nouvelle approche en utilisant des signes de l'Internet pour prédire des factures financières est vraiment nouveau. L'un ou l'autre intéressant de l'usage de succès est le projet Google Flu, en regardant la corrélation entre les prédictions de flux et les termes de recherche sur Internet sur Google. Et la ligne basse de ces deux succèses est que l'intérêt est maintenant un nouveau source de données, une source de données structurelle et une représentation de la voix des gens. Et c'est très intéressant parce que nous pouvons analyser les signes avant les factures, les factures financières ou les factures médicales des signes de l'Internet. Et nous utilisons cette ligne basse pour procéder à notre nouveau modèle prédictif. Et finalement, dans l'Ilsker, un point est très intéressant parce que l'Internet est maintenant un nouveau source d'informations pour les gens sur le diagnostic, l'hôpital, les drogues, les symptômes et les conseils médicaux. Et juste après, les docteurs médicaux et, bien sûr, les professionnels de l'Ilsker. Et un point à garder en compte est que les principaux sources ne sont pas les nouvelles modernes, les réseaux sociaux d'Internet, mais les forums de l'école et les seats Q&A. Et nous sommes très intéressés parce que leurs sources ont une histoire forte de données depuis plusieurs années. Et nous pouvons analyser la question et le sujet de l'intérêt des gens depuis plusieurs années. Et le bénéfice pour l'Internet ou le objectif pour l'Internet est de développer une meilleure compréhension du sujet de l'intérêt des gens et, bien sûr, de leurs patients et de conduire les actions de marketing directement au sujet de l'intérêt et pas dans le cas de la communication classique. Le second point est d'utiliser l'effet psychosocial de l'Internet pour protéger la consultation excessive et, bien sûr, de l'invinciation. Le fait est que, quand les gens sont proches de vous en parlant d'un flu ou des problèmes médicaux statistiquement, vous êtes plus conscients de procéder à la consultation pour les médecins. Et c'est l'effet psychosocial de l'Internet sur l'Internet. Et le dernier point est d'exprimer, bien sûr, les prédictions pour monitorer, en fait, les demandes sur l'Internet sur les symptômes de drogue et de l'invinciation pour conduire un nouveau modèle prédictif pour prédire les prédictions financières sur l'Internet. Donc, la question est de rassembler cette analyse prédictive avec cette nouvelle source de données. Et, pour faire ça, nous devons résoudre, en fait, trois problèmes de données différents. Le premier est d'understand l'intérêt sémantique de l'Internet utilisé par les gens sur l'Internet avec les problèmes d'autographie, de gramma et de l'understand de l'Internet et de automatiquement procéder les données de l'Internet pour prendre la connaissance de la message. Le deuxième problème est, en fait, de trouver les correlations entre les évolutions des claims, bien sûr, et des millions de variables externes comme la recherche ou les keywords sur les forums et, pour exemple, des factures socio-économiques comme l'employement et le GDP. Et le dernier est, bien sûr, de trouver, pas seulement les variables correctes, mais aussi, d'inviter les claims et d'assurer une nouvelle action pour essayer d'inviter les consultations et les claims. Donc, bien sûr, il faut procéder beaucoup de millions de time series de données et nous pouvons faire ça manualement. Nous devons développer des techniques de machine pour procéder automatiquement et pour apprendre et, en fait, pour découvrir les sciences de ces données. Le système est basé sur cet approche. Nous collectons des données et nous automatiquement extractons le tag de l'IleScare de ces données et nous obtenons des trends de keywords médicales en timeline utilisés, en fait, dans le forum. Nous collectons une liste, une grande liste de 100,000, de 1000 keywords de Google Trends représentant la query et la recherche sur les symptômes et les drogues sur Internet. Nous collectons des données d'open data, portals.gov.fr sur des variables socio-économiques comme l'application, la consommation, l'index et beaucoup d'autres. Nous tentons de corriger par des actes médicaux par exemple, des consultations médicales, de drogues, de réinventations. Nous tentons de trouver des timelines d'autres timelines d'autres sources d'obstacles qui sont créées à l'IleScare. Nous analysons les déterminations de l'économie et la détermination de l'économie parce que chaque série de temps de l'input a été déterminée pour trouver une relation du data source et pour détecter l'anticipation du data source. L'anticipation est l'indication de l'économie de l'économie de l'économie, de l'économie de l'économie et de l'analysation de l'économie est très utile parce qu'on peut tracer immédiatement si le modèle est utile ou non pour prédire le data. Donc l'île de l'IleScare parce qu'on n'a pas de médicaux de l'économie en français et nous devons procéder le message et extraire les timelines. Donc la méthologie est la suivante. On tokenise le message par date pour un message qui explique la date de l'économie de l'IleScare. Et après ça on tente la route de l'IleScare pour extraire la route latine de l'IleScare. Et nous filtrons l'IleScare contre le dictionnaire des mots communs d'économie et d'opération de médicaux pour extraire les mots médicaux pour filtrer les mots médicaux. Nous utilisons un API appelé NLTK NLTK est un API dans le texte naturel disponible dans différentes langues en français, spain, anglais, german etc. Et la question de construire nos timelines de l'IleScare nous devons construire l'IleScare d'économie et la première solution était de lire automatiquement les mots médicaux et les mots online qui choisissent vraiment les mots médicaux qui interprètent les symptômes et les mots qui décrivent les symptômes et qui n'utilisent pas les mots médicaux. Donc nous devons construire un dictionnaire de la perspective des gens d'Internet. En termes de méthodologie la première des mots médicaux manualement basé sur les interviews et nous avons envoyé cette liste avec des mots médicaux de Google et le généreur de Google et pour construire une liste plus complète des mots médicaux. Et après ça, comme un humain on read des mots médicaux de Wikipedia et nous avons appris automatiquement des mots médicaux des mots médicaux d'Equipédias et nous avons obtenu un field simontique basé sur la perspective d'Internet des mots médicaux et nous avons utilisé les mots médicaux pour extracter les mots médicaux. Pour trouver des créations entre des séries de temps et des séries de millions nous avons utilisé en fait un système de régulation avec un algorithme de régulation supérieur de régulation. Le système a essayé de trouver une solution d'une équation de minimiser l'erreur d'une fonction et la technique a utilisé un décendant stochastique pour résoudre l'équation et nous testons la réponse du modèle de l'esprit par la coéficien de la détermination. Et pour chaque timeline nous lèvons les timelines de 1 mois jusqu'à 12 mois pour avoir la vision de 1 an et nous réagissons les clés contre ces timelines. Donc, pour faire ça nous utilisons un cycle-learn une fois plus, c'est un libéral Python avec beaucoup d'algorithmes de machine-learning et le second problème est la data parce que les données collectées sur Internet ne sont pas vraiment si grandes c'est des gigabytes ou beaucoup de gigabytes et ce n'est pas un problème d'agrégation d'agriculture, car le volume de la data est diminuant. Le problème est pour le search de la coopération parce que chaque search génère 12 lacs des timelines et on teste la combinaison des séries keywords et on génère beaucoup de données pour procéder la data. En fait, la procédure est plus générée plus de données que les données collectées rèdes. Donc, pour diviser la procédure en temps et pour assurer une approche de la computing parallèle pour rèder, spécialement la procédure de la coopération. En termes de plateformes on a beaucoup d'it-drivers parce que le projet est un projet de recherche et de développement pour la coopération et nous avons deux grands IT-drivers le premier est l'élasticité de l'infrastructure pour procéder des petites données d'intégrisation et une très grande computing pour l'exemple pour la procédure de la coopération. Et donc, nous avons besoin de l'élasticité aéro-élasticité CPU-élasticité et de l'élasticité pour procéder la data. Le deuxième point est très important parce que c'est un projet de recherche et de développement et nous avons de la recrédition à la haute la haute, la haute, la haute la coopération et la coopération de l'élasticité pour pour garder la monnaie de l'élasticité plus lente et donc, nous utilisons d'autres hardware de la comédie d'open source et de l'élasticité et nous essayons d'avoir une vraie compétition de l'élasticité. C'est-à-dire quand nous avons un processus ou un processus computationnel nous voulons que la procédure de l'élasticité soit très conforme à la recrédition de l'élasticité pour la procédure de l'élasticité. Donc, en termes de solution nous choisirons Amazon, l'élastic map, comme un système adoptable mais avec l'élasticité de l'élasticité parce que pour un travail vous pouvez distancier seulement ce que vous avez besoin en termes de hardware et de capacités de procédure en termes de mémoire, CPU et IOPS. Donc nous avons commencé sur l'élastic map et la procédure de l'élastic map surtout parce que la procédure de l'élasticité et la procédure de l'élastic map sont très importants et c'est un major processus de l'élasticité dans notre système. Donc, un mot de l'élastic map est construit comme un système adoptable en fait et les storage sont réunis par l'instance de coréen et le processus commun sont réunis sur cet instance. C'est très intéressant pour nous parce que nous pouvons ajouter un processus de l'instance de task sans storage pour avoir un plus de CPU sur l'architecture et quand nous avons fait un travail sur l'élastic nous pouvons ajouter le nombre de CPU dans le processus et nous pouvons avoir une coste de l'élasticité directement sur le travail dans l'architecture de l'instance de task. En termes de compétences nous utilisons MassAV, bien sûr, HDFS, ma production pour organiser la procédure de l'élasticité et pour organiser les compétences de transformation en fait comme étl et pour procéder les données de l'élasticité et pour construire un nouveau format pour les données, nous utilisons en fait, en HDFS un format particulier basé sur la valeur de la clé et la valeur de la décision pour procéder les données qui sont très difficiles pour représenter un modèle de relation et c'est pourquoi nous ne utilisons pas l'IVE pour procéder le système mais nous utilisons directement une app custom développée en Python et Django avec beaucoup de JavaScript et GQuery pour rendre les données et tout le processus d'adupation avec les programmes Python et ces programmes Python utilisent l'LTK libéraire pour la procédure de l'élasticité et le CIC pour procéder les régulations de support vector en termes de l'infrastructure d'artillerie surtout les données qui ont été stored en s3 d'Amazone et les données sont copiées pour faire la procédure de la procédure et pour la procédure de l'élasticité et la procédure de l'élasticité ou la procédure de l'élasticité nous ajoutons 1, 2, 4 d'études pour augmenter la capacité de mémoire et la capacité de CPU le détail de chaque procédure de l'élasticité dans s3 mais des détails importés dans les radies pour avoir un accès pour les données d'application pour s'adapter le nombre d'applications d'application d'application d'application sur Python et c'est très utile parce que nous utilisons iCharts.js pour rendre la représentation basique de données comme pie charte ou timeline et s3.js pour la représentation de données comme Rockroad et Dynamics Map de la métro de corrélation en termes de travail c'est très utile pour la transformation parce que c'est comme un l'ETL parce que nous loadons les données de la single instruction et nous définirons la structure primaire pour manipuler et pour grouper les données d'application et pour générer un nouveau file avec l'agrégation Adobe Streaming est très utile pour nous parce que nous avons beaucoup de programmes et de scripts et surtout nos API sont en Python et c'est très utile pour organiser le travail en MAPReduce directement en Python et testé localement avec le Python environnement et l'élastique MAPReduce donne le pouvoir pour procéder de plus en plus de données et de l'accent de données en termes de Python et MAPReduce c'est très facile parce que nous utilisons en fait l'input standard et l'input standard du système par Adobe pour communiquer les données et Python est très utile pour procéder par exemple un système STAM et par date et le point unique ou le point difficile de l'attention est le déploiement de l'LTQ librairie parce que vous devez procéder dans la phase de l'élastique MAPReduce pour déployer sur le stack instant et pour donner l'infrastructure en termes de API sur each node par exemple pour l'utilisateur c'est très simple parce que nous devons procéder l'input standard par Adobe et pour exemple calculer la distribution de les données directement et nous devons juste printir la clé et le objectif dans le texte et nous pouvons procéder facilement en termes de conclusion sur notre travail aujourd'hui la recherche de corrélation identifie que la coiffusion de détermination est de plus de 80% et une ligue est de plus de 1 mois avec une grande focus avec une ligue de 5 mois et nous sommes ajustés à ce model de corrélation et les variables pour trouver une ligue de corrélation avec la plus grande coiffusion de détermination l'opération de l'élastique est très utile pour nous parce que l'élasticité est très intéressante pour la morphologie de notre travail parce que par exemple dans le sommaire la course du mois est très bas et quand nous prenons un processus sur le cluster ce n'est pas très grand et en regardant la course d'une plateforme équivalente pendant que les compétences sont très intéressantes en termes de prix parce que 1000 euros par mois c'est c'est comme 50 mois de recherche et de développement en termes de de la course le problème de la transfert entre S3 et HDFS n'est pas vraiment un problème parce que le volume de données historique n'est pas si grand et la phase de travail est assez efficace pour les données de S3 et HDFS un point de attention dans la recherche pas tous les CPUs sont utilisés dans le travail le facteur de parallélisme est plus bas que l'architecture SMP ou l'architecture classique parce que l'allocation de tasks dans ADUP n'est pas si efficace pour les problèmes parallèles de l'embarassé en termes de de la course on doit augmenter le nombre de sources de données pour mitiger l'overweight de la source collectée maintenant et on doit tester et augmenter la robuste de la production de modèles parce qu'on a beaucoup de variables collés et la volatilité de les variables de la détermination est encore bas et on doit réduire l'overweight de ces modèles pour construire des modèles plus systémiques de modèles en termes de la recherche de colléation aujourd'hui on a essayé de combiner dans les keywords mais on n'a pas essayé de combiner pour exemple un keyword avec un emplacement ou d'autres sources d'information peut-être c'est intéressant de développer cette combination de grosses sources pour développer une vision plus intéressante de la recherche de colléation en termes d'IT on planera de changer la recherche de colléation sur les modèles élastiques pour une architecture de l'HPC comme un cluster de nodes de la processus et on on est en train de plus profondément de la phoenix de ma production et de la DISCO de la Nokia parce que la Nokia est très intéressante le second point c'est d'industriérer les components de la plateforme pour obtenir une génération d'insurances pour exemple sur les saveurs et pour e-commerce et des activités de télécom donc un mot d'Octo Octo n'est pas un vendeur de software nous sommes une compagnie de consultations avec des skills de l'IT spécialement en computing et l'HPC maintenant effectivement en Adobe et nous avons un approche duale sur le problème un approche business de Big Data et l'approche IT de Big Data pour résoudre le problème globalement et pas seulement d'une perspective unique Octo a différentes forces autour du monde, surtout en Europe et un en Brésil et une organisation verticale sur l'industrie financière et d'autres industries c'est très court sur la discussion et les recommandations pouvez-vous expliquer un peu plus pourquoi un disco doit être un bon traitement pour vous, pour votre pour vos besoins parce que vous utilisez maintenant Amazon qu'est-ce que le disco peut vous donner à la table que l'Amazon n'est pas offert maintenant en regardant Adupe ou en regardant MapReduce Nous devons processer l'agrégation de data et MapReduce est un modèle utile pour agrégation de data comme GroupBuy et nous devons renseigner un processus parallèle d'exemple pour l'agrégation et nous utilisons seulement la map pour organiser le processus de l'agrégation de data et en fait nous devons combiner les requirements de l'ADBMS comme Select GroupBuy et des compétences parallèles comme HPC ou MPI et MapReduce permet de faire les deux types de travail et c'était intéressant l'Amazon est intéressant en termes d'électricité et pour nous c'est très intéressant parce que nous utilisons la plateforme comme service et nous n'avons pas besoin de construire une plateforme IT sur Adupe et c'est très utile parce que c'est un projet de recherche et de développement et vous devez rapidement trouver des choses intéressantes et la proposition n'est pas de délivrer une plateforme IT le problème c'est de trouver quelque chose dans le data et pas de délivrer un projet IT Dysco c'est de donner quelque chose différent je n'ai pas le point d'utiliser Dysco peut-être nous pouvons parler plus tard comme vous l'avez dit c'est intéressant parce que l'architecture est différente ce n'est pas un framework de map mais il s'agit d'utiliser un corps le corps physique d'un cordon de cordon et pas de processer la production de map sur l'architecture Adupe et c'est pourquoi c'est intéressant pour nous et la Phoenix c'est intéressant aussi parce que Phoenix est très design pour cluster of core merci merci beaucoup