 Hola, buenas tardes a todos. Bienvenidos a esta charla titulada Abidat Approach to a Sentiment Analysis. Y lo que vamos a mostrar, o a comentar un poco, es nuestro enfoque o el enfoque bidata que hemos utilizado a un problema o a una metodología que nosotros utilizamos desde hace tiempo que es el Sentiment Analysis. Antes de nada, presentarnos mi nombre es Roberto Maestre, mi compañero es Ruben Abad y trabajamos en el Departamento Dimas de Paradigma. Tenemos muchas líneas de investigación pero las tres principales y un poco por orden cronológico pues es la primera es la de NLU, la podríamos definir así. Y entonces un poco lo que intentamos hacer es extraer información desde un texto que está escrito en el lenguaje natural, extraer la información importante, poder tratarla, hacer que la máquina lo entienda y luego en base utilizando unos sistemas expertos pues por ejemplo si esa pregunta es porque el usuario está buscando información pues intentar guiarle, es decir, si el sistema experto considera que falta información en esa pregunta pues es capaz de guiarle, preguntarle o hacerle una pregunta para conseguir más información. No solamente eso, sino que también lo que hace este sistema es utilizar datos por ejemplo desde Freebase, entonces lo que puede aportar al usuario es información extra. Entonces tenemos el ejemplo clásico que si el usuario está buscando por ejemplo restaurantes asiáticos pues el sistema es capaz o tiene la opción de poderle listarle en tiempo real pues una serie de platos típicos de esa cocina, ¿vale? Entonces sería la primera, la segunda es el análisis de redes y la visualización de datos aunque realmente la visualización de datos es una línea transversal a todo porque al final los resultados pues tenemos que visualizarlo de una manera que se entienda, ¿vale? Entonces aquí lo que hacemos es intentar por ejemplo el ejemplo clásico que tenemos es el de Twitter pues mediante algoritmos intentar por ejemplo ver cuál es la configuración de la red para un momento determinado a la hora por ejemplo de emitir una información. Es decir en qué momento es más propicia la red para que los datos puedan fluir, etc. Entonces aquí como un poco como resultado pues tenemos una métrica que le llamamos Open Influence que viene un poco en respuesta a la de Cloud en el sentido de que nosotros hemos intentado establecer la métrica o la fórmula de una manera abierta, la tenemos publicada en el blog y entonces pues un poco discutir sobre ella para intentar ver por ejemplo cuál es la manera óptima por ejemplo de medir la influencia por ejemplo en la red de Twitter, ¿vale? Y luego la tercera y es un poco la que nos trae aquí es la de Vdata. Entonces bueno Vdata nosotros empezamos con bueno hace dos años nosotros tenemos un producto que lo que hace es recolectar información de internet y la analiza y saca estadísticas, ¿vale? Entonces estábamos trabajando intentando mejorar esta herramienta y para extraer esta información pues nosotros lo que utilizábamos era sistemas de que se llaman net reconocidos de entidades ¿vale? Entonces extraer de una manera rápida que información es relevante de esa gran cantidad de datos que teníamos Entonces trabajábamos con net que eran específicos de un dominio y el problema era que si conocéis un poco sobre net pues al final si tú intentas tener mucha precisión pues no tienes cobertura, si tienes mucha cobertura pues no tienes precisión entonces teníamos un problema con los net. Entonces pensamos en utilizar la Wikipedia como un gran grafo semántico a la hora de hacer lookups y bueno otras operaciones es decir si hay términos que están cerca como tú puedes verlo como un grafo de las categorías y subcategorías pues van a intentar hacer inferencias bueno nos bajamos los dumps, los metemos en una SQL y empezamos a intentar generar la estructura hacer cálculos y nos damos cuenta que con SQL pues no podíamos es decir era tan la cantidad de datos y operaciones que nosotros hacíamos sobre esta estructura que las SQL, la base de datos pues se nos quedaba colgada entonces bueno pues empezamos a buscar un poco qué herramientas hay que nos pueden ayudar a solventar este problema y bueno topamos con Hadoop, entonces bueno intentamos hacer las mismas operaciones cargamos con Hadoop los datos y empezamos a operar y nos damos cuenta que es podemos manejar esa estructura y esa información pues sin ningún tipo de problema entonces bueno esta es un poco la historia como nos vamos nosotros integrando o viendo como el Vdata nos empieza a resolver alguno de nuestros problemas y entonces a la par lo que pensamos es estas líneas que hablaba antes de la análisis de redes y del NLU pues intentar empezar pues integrar esas herramientas en Vdata entonces bueno aquí como veis en esta captura se supone que es un cisne negro entonces haciendo un paralelismo justamente ya llegando al punto del sentimen análisis estamos leyendo unos libros sobre estadísticas sobre matemáticas y tal cosas así muy interesantes y entonces hay una teoría una metáfora que se llama la metáfora del cisne negro que entonces lo que viene a definir por encima es que el mundo da un montón de sucesos un montón de eventos pero hay unos en concreto que son los que le llaman los cientos negros que cumplen una serie de propiedades entonces la primera es que son muy difíciles de prever es decir nosotros no tenemos información para prever donde van a suceder o ocurrir la segunda es que tienen un alto impacto es decir cuando suceden pues tienen un alto impacto aquí el típico ejemplo es pues el 11 es decir es un evento que es muy a priori no se sabía no se tenía información de que iba a suceder y luego el alto impacto que tiene la sociedad pues bueno ya conocemos cómo cambió el mundo a partir de ahí y luego uno tercero es que bueno como buenos seres humanos pues a posteriori vemos rápidamente que todo tiene sentido como sucedió las variables etcétera entonces bueno haciendo este paralelismo nosotros lo que nos encontramos un poco con toda la información que vamos recopilando es bueno podríamos ponerlo como esos eventos que nosotros recogemos de un montón de fuentes ya puede ser desde desde google haciendo búsquedas desde twitter de freebase de un montón de datos estructurados no estructurados nos encontramos que nuestra búsqueda de sentiment analysis como va a explicar Rubén luego un poco más en detalle es ese tipo de búsqueda o sea nosotros intentamos buscar esos cisnes negros esos eventos raros que es muy difícil encontrar entonces aquí surge un poco la primera visión que nosotros queríamos dar es decir cuando nosotros nos encontramos problemas en el cliente o mejorando nuestras propias herramientas hemos encontrado muy útil el primero de identificar qué tipo de eventos tenemos que manejar entonces en qué lado estamos en el de manejar los cines blancos es decir manejar la población total o manejar esos cines negros en un primer caso por ejemplo tenemos una herramienta que lo que intenta hacer es sacar emergencia de hashtags es decir nos conectamos a la red de twitter vamos cogiendo la información y entonces sacamos haciendo concurrencias en los tuy de hashtag pues lo que hacemos es sacamos que hashtag asociado a uno emerge no es tan cerca entonces aquí se ve rápidamente que si nosotros hacemos un muestre de esos datos por ejemplo podríamos utilizar storm en tiempo real hacer un muestre o un módulo 100 o el que sea ir procesando esa información luego esa información que tenemos que es parcial que es de esa muestra nosotros lo consolidamos por debajo pasado el tiempo cogemos todos los datos lo volvemos a pasar y vemos que se acerca es decir lo que ha sido el muestre o se acerca mucho a lo que es todo el proceso de datos entonces sería un primer enfoque si ahora nos enfrentamos al segundo enfoque es decir yo tengo que estar buscando esos cines negros si nosotros lo hacemos en tiempo real lo que nos encontramos es que la probabilidad de encontrar ese cines negro en esa población bueno pues aquí esta escala pero si estamos trabajando por ejemplo con 10 llegabais de datos pues evidentemente no encuentran ninguno entonces en este ejemplo o en este caso de uso del sentido de análisis estamos restringidos a procesar toda la información entonces nosotros en lo que va a comentar Rubén y lo que vamos a comentar en este caso de uso tenemos obligados a hacerlo en esta charla se habla mucho de tamaño de datos de terabytes de bueno yo creo que hay dos variables en el tema de bizzata no solamente es la información que yo tenga sino es también el tiempo que yo targo en procesar cada uno de sus eventos de los cines negros porque en esta imagen se ve muy bien a priori tú ves donde está el negro lo ves rápido pero como va a explicar Rubén el ejemplo del sentido de análisis tiene que pasar por una serie de tapas y no es tan sencillo distinguir cuál es un cine negro y un cine blanco por lo cual si tú estás juntando una variable que es tengo una información de datos que es importante que sigue creciendo porque esta herramienta cuando nosotros la lanzamos hace 5 años recolectaba un porcentaje de datos pero es que ahora que le hemos enchufado el streaming de Twitter o que hay más proveedores de datos pues al final la capacidad va creciendo y el tiempo en procesar o en discernir cuáles son los datos que a nosotros nos interesa no es simplemente hacer un pequeño cálculo sobre ello hay que pasar una serie de tapas y entonces es lento entonces os voy a dejar con Rubén que va a explicar un poco más en detalle un poco el proceso de encontrar estos eventos bueno hola a todos Roberto nos ha explicado un poco lo que es la tarea del cine negro yo voy a tratar de explicar primero que es el cendimenta análisis para los que no lo conozcan muy rápidamente y tratar relacionarlo con el tema de los cines no es que no hay más interesa el cendimenta análisis es el uso de la tecnología para tratar de encontrar opinión de detectar y extraer información subjetiva de los datos al final estamos utilizando precisamente el lenguaje natural estamos utilizando computación lingüística estamos utilizando minería de textos con qué objetivo y aquí ya voy a empezar a meterme con lo que es el tema de cisne negro y cisne blanco hay dos conceptos principales en lo que es la minería de opinión tenemos por un lado las menciones y por otro lado las opiniones la mención en minería de opinión no nos va a dar nada es una mención leyendo la definición de la RAE porque no quiero equivocarme es un recuerdo memoria que se hace de una persona o cosa nombrándola contándola o refiriéndola perfecto y vuelvo a leer una opinión es un dictamen o juicio que se forma de algo cuestionable si yo estoy haciendo análisis de opinión en realidad lo que quiero son esos dictámenes me da igual que estemos hablando de la entidad X en 100 millones de comentarios a partir de ahora los llamaré menciones para no confundir lo que quiero saber es ese pequeño porcentaje de menciones que realmente va a aportar un valor a ese cliente mío que es esa entidad X que él puede utilizar a posteriori en su campaña de marketing o en sus operaciones correspondientes entonces es más la opinión tiene dos polaridades tenemos por un lado la polaridad positiva como por ejemplo el primer ejemplo que hemos puesto en la transparencia hemos seleccionado una serie de ejemplos de nuestro dataset de prueba donde claramente la entidad es ONU y creo que no hay ninguna duda es un comentario, una mención muy positiva, opinión positiva a partir de ahora y tenemos la polaridad negativa en este caso en inglés donde la entidad bueno, hay varias entidades voy a centrarme en food, en comida Woznodwood claramente es negativa la central es simplemente una mención no estamos expresando ningún tipo de opinión en torno a Rafael Nadal ni a Mickey Mouse bueno, una vez centrados el tiro en torno a lo que es el análisis de opinión voy a relacionar ya los conceptos que Roberto estaba explicando anteriormente con las opiniones y las menciones nosotros a diario el ponente anterior ya ha dicho que si hablamos de gigabytes no tenemos ni idea prácticamente estamos manejando en torno a 100 gigabytes de menciones por el volumen de clientes que tenemos hasta el momento la perspectiva es crecer, multiplicar por 10 si puede ser por 100, pues mejor pero bueno seguimos en el juego de los gigabytes pero es muy difícil para nosotros detectar haciendo simples muestreos que opiniones hay en el mundo de hecho, aquí gráficamente hemos representado la opinión positiva la opinión negativa entre lo que es el volumen de comentarios que tenemos en internet a diario en torno a prácticamente cualquier entidad estamos hablando de un volumen para una entidad ya de cierto peso de más de 2 millones de menciones diarios no es gran cosa es verdad, no es gran cosa, ahora bien si quiero dar un feedback rápido a mi cliente sí que es gran cosa eso hay que moverlo rápido esas opiniones que tenemos están entre el 2 y el 5% del total de las menciones realmente es un porcentaje tan bajo para obtenerlo con muestreos y aparte que el muestreo no nos va a dar valor como decía Roberto porque lo que queremos es el total de esos cisnes negros, de esas opiniones pero bueno, ya vamos a presentarnos el problema, no yo todo día releía a Polia, George Polia en su libro como resolverlo que hablaba un poco de cómo voy a afrontar un problema que tengo que es lo que desconozco en nuestro caso cuál es la opinión de la entidad que es lo que conozco todas las menciones que tengo y luego ya se plantea cuál es la técnica que tengo que llevar a cabo Big Data al final lo que haces es ejecutar un divide vencerás no nos ha descubierto el mundo simplemente que ese divide vencerás lo ejecuta entre n máquinas, n cores o lo que sea distribuido con un volumen de datos monstruoso pero es un divide vencerás que Polia ya en el 54 creo recordar ya lo proponía como solución a problemas matemáticos simplemente, problemas básicos incluso de álgebra introducido ya la relación del sentiment analysis con el problema de los tesis negros metiéndolos un poquito en Big Data os voy a comentar antes de continuar, luego haré un repaso a cuál es nuestra arquitectura previa de análisis de sentiment y cuál es nuestra arquitectura actual quiero comentarlos cómo trabajamos nosotros con el sentiment analysis cuál es nuestro proceso de sentiment analysis voy a obviar la recolección voy a obviar la persistencia por ahora voy a centrar solo en ese análisis perdón las técnicas tradicionales de sentiment analysis engloban por un lado el machine learning donde podemos utilizar support vector machine semantic latent semantic analysis o un método mucho más básico que son las bolsas de palabras las listas de palabras los etiquetados básicos nosotros después de probar todas las aproximaciones nos hemos optado por la velocidad sobre todo por una mezcla entre las bolsas de palabras y las gramáticas basadas en conocimiento inferido del mundo que es ese conocimiento inferido del mundo bueno al final son reglas gramaticales en las que utilizamos etiquetado morfológico a veces también utilizamos desambiguación cuál es el flujo que nosotros llevamos a cabo sobre un documento para extraer la opinión en torno a un entidad-objeto de estudio lo primero que haremos es descomponer os va a sonar ahora a lo que es un map descomponer ese documento en una serie de menciones nos quedaremos solo con aquellas frases que se hagan mención a la entidad-objeto de estudio y lo que haremos será detectar el idioma para en las siguientes etapas dirigirla al flujo correspondiente no un erróneo será un filtrado de ruido será un etiquetado post tagging que es un etiquetado morfo sintáctico y por último calcularemos la opinión con lo que os acabo de comentar aplicando tanto las bolsas de palabras como las reglas de gramáticas bueno esta es nuestra arquitectura previa esta arquitectura es una evolución de la primera que tuvimos hace 4 años y medio 5 una evolución encima del anterior hasta que al final tenemos un pegote más o menos será esto una arquitectura de información retribal tradicional por un lado teníamos la recolección el análisis, la persistencia como la visualización que no es objeto de estudio aquí en este modelo no teníamos por un lado una serie de recolectores que funcionaban constantemente desde que un manager le indicaba que el proyecto había sido arrancado e iban persistiendo en una caché constantemente y otro modelo de recolectión pasado en la petición bajo demanda por parte de los flujos de análisis los flujos de análisis scripts perl programamos en perl entonces distribuidos entre n máquinas no recuerdo si eran más de 10 máquinas ahora mismo 10, 11 máquinas, cada una con 16 cores 16 scripts perleng por máquina y bueno si os fijáis en el flujo que os comentaba antes aquí el flujo no existe el flujo entero estaba implementado dentro del script perl el script perl incluso invocaba la recolectión y acababa con la persistencia era un sistema bastante complejo de entender de entrar a trabajar con él de hecho Roberto y yo hemos estado con él hay más gente de esta sala que ha estado con él y yo hay zonas que no se ni lo que hacen ni quiero saberlo y bueno eso era uno de los problemas la complejidad para entrar a trabajar con el sistema por otro lado estaba el tiempo estábamos hablando del orden de 100 gigas de datos diarios pero el sistema con este volumen de máquinas que os he dicho este volumen de procesos funcionando en paralelo tardaba más de 8 horas de hecho casi 9 horas para proporcionarnos el resultado final que persistiríamos en una serie de índices solar cuando solar todavía no tenía solar cloud teníamos un balanceador que era una escritora casero que más o menos funcionaba y bueno al final al cliente le estábamos dando el dato no solo con un día de retraso por los métodos de recolectión que tenemos siempre trabajamos con un día de retraso para permitir que google que es uno de nuestras fuentes de datos tenga tiempo a indexar todo sino que encima le añadimos esas 10 horas extra por el análisis entonces esos son dos problemas y el tercero es que la parte de visualización el frontal realizaba una cantidad brutal de consultas agregadas los facetados tradicionales y el tiempo de respuesta era horrible teníamos sí que es verdad que ya la última versión utilizaba solar cloud para la query y bueno eso nos facilitaba un poco la consulta pero los tiempos eran horribles nos vamos a mostrar un poco cuál es la la nueva aproximación que ya está en funcionamiento y nos está dando buenos resultados el modelo de recolectión lo variamos ligeramente ahora en cuanto un proyecto es dado de alta va a empezar a escribir da igual sus fuentes, va a ir persistiendo constantemente en un sistema hdfs son ficheros de texto plano, puro y duro nosotros somos de csv bueno ya veis casi a simple vista se puede entender como está definido el sistema ya no tenemos ese proceso per infernal sino que como esta mañana decía alisalom hemos tratado de segmentar nuestras etapas del proceso y ajustarlas a las tecnologías ideales para cada una de las etapas bueno ya os lo comentaba antes el clipping es claramente un mapper no hace más que cogerme una tupla de entrada y convertirme en n tuplas de salida el clipping fue lo primero que convertimos en un trabajo Hadoop y hemos pasado de tardar del orden de horas en hacer clipping a tardar el orden de menos de 5 minutos para 100 gigas de datos luego el segundo punto que antes veíamos como 3, en realidad no que era la edición de idioma para el filtrado de ruido y el post tagging al principio lo intentamos hacer usando Hadoop fracasamos fracasamos en parte no sé si por falta de conocimiento por nosotros pero eso en las dos primeras etapas en detección de idioma y en filtrado de ruido pero en la etapa de post tagging nosotros para hacer etiquetas morfos sintáticos utilizamos un software open source que es Freelink que lo que nos proporciona es una herramienta muy potente pero altamente compleja no es fácil de instalar y bueno ya no quiero ni plantearme lo difícil que tiene que ser distribuir eso con Hadoop de hecho no sé si será posible solo tendré que plantear la próxima vez entonces ¿qué hicimos? bueno ya abandonamos Perl, nos metemos en Python y lo que decidimos fue implementar una serie de servicios a distribuir para que cada uno escorriera en un core en Python que corren sobre tornado ese tornado está balanceado a nivel de proceso por Unicorn y luego a nivel de máquinas está balanceado con Enginex vale ahora mismo tenemos 16 instancias de servicios y esas 16 instancias de servicios de más de 2.500 peticiones por segundo no está mal, podría ser mejor metemos en máquinas bueno todo esto, al final, persiste en un HFS vamos persistiendo cada etapa en un HFS temporal por último calculamos el sentimiento a análisis lo que hicimos fue utilizar PIG para facilitar el tema nos programamos nuestra propia UDF utilizando nuestras reglas que teníamos implementadas en otros lenguajes como un persistor que rebobina un poco en la última etapa el sentimiento aprovechamos otra de las funcionalidades de PIG que son los agrupados directamente la devolución de resultados por agrupado eso lo utilizaremos en la siguiente en el persistor para por un lado seguir persistiendo el texto para que sea buscable en un solar cloud ya tenemos solar cloud 4 no importa y por otro lado persisteremos todos los agrupados con los rangos de fecha en una MongoDB de modo que ahora las consultas del frontal para obtener los agrupados que luego utilizarán las gráficas o las estadísticas son infinitamente más rápidas y bueno destacar las ventajas que hemos encontrado nosotros que estamos viendo a diario ahora mismo con el desarrollo a nivel de eficacia nosotros comentaba que la plataforma anterior tardaba más de 8 horas 9 incluso para procesar los 100 gigas ahora mismo tardamos menos de una hora ya es un cambio sustancial es mucho más sencilla yo creo que a nivel gráfico ya se ve si hablamos de código no hay color más de 4 mil líneas programas que no llegan a las 200 300 el coste de la plataforma antes comentaba que teníamos más de 10 máquinas eso era sólo de análisis todas las que teníamos de Harvesting la persistencia la hemos reducido un poco pese a que tenemos ahora Mongo y Solar pero sobre todo a nivel de análisis hemos reducido a más de la mitad perdón, a la mitad el número de máquinas estamos trabajando en un cluster de sólo 5 máquinas solo manejamos gigas y solo manejamos 5 máquinas cuando tengamos un tera ya meteremos más la capacidad de reproceso esta una de las demandas por parte de los clientes un cliente definía un proyecto y el proyecto iba analizándose como los datos no eran persistidos temporalmente no eran persistidos perdón en ningún sitio que se procesaban al vuelo y eran luego almacenados y al resultado final no podíamos utilizar una configuración nueva o modificada para volver a procesar ese dato ahora tenemos HDFS espacio infinito mientras le metas máquinas genial, solución y por último el tiempo que ya lo he comentado con la eficacia y ya os vuelvo a dejar con Roberto para que continue no sé si alguien conoce o sabe que es esta foto que luego dice por el componente que los españoles somos algo tímidos a nadie le suena bueno, enlazando un poco con el tiempo hará 3 semanas estuvimos en la fundación Areces en una charla sobre Alan Turing bueno, pues celebrando un poco el centenario de su nacimiento y estuvimos en una charla muy interesante de Pedro Bernel creo que se llamaba el director del CSD y bueno, hacía una correlación tenía una presentación muy bonita en la que correlacionaba bueno, esto es una máquina bomba que se utilizó en la Segunda Guerra Mundial entonces hacía una correlación una comparación entre los avances en la en las máquinas de descifrado de los aliados y el avance de las máquinas de descifrado de el eje entonces se ve ya como desde la primera máquina perdón, abajo eran como dos ejes el primero era los avances en las máquinas de los dos bandos y arriba eran las victorias ganadas o perdidas entonces se veía que cuando los alemanes cifraron sus comunicaciones y los aliados no tenían ninguna máquina para descifrar pues se veía como las batallas se decantaban del lado del eje se veía que cuando por ejemplo metían conseguían descifrar, metían más capacidad de cálculo y descifraban en un tiempo que les valía esa información pues las batallas aumentaban se veía que luego el eje metía más rotores era a final una guerra de esa tecnología entonces un poco pensando en esto y haciendo otro paralelismo Vitata también nos proporciona un poco control sobre ese tiempo es decir, la información dependiendo de cual sea mi problema necesito tenerla en un tiempo finito entonces si pensamos por ejemplo en una detección de fraude nosotros tenemos un montón de datos probablemente el fraude si lo que es mi producto o el análisis me llega dentro de un mes y me dice que me han robado todo el dinero pues evidentemente la información ahí pues no me vale para nada en nuestro caso el Sentiment Analysis lo dábamos con una diferencia de 8 horas pero ahora somos capaces de ajustar esa información inclusive en una hora que es el tiempo que tardamos en procesar entonces al final del tiempo nos proporciona un valor muy importante a la hora de disponible esa información y con estas tecnologías Vitata nosotros resolviendo este problema pues nos hemos dado cuenta que podemos tener control sobre esta variable tan importante entonces un poco como resumen global de la charla nuestra experiencia con Vitata resolviendo distintos problemas al final un poco laurística que hemos analizado es la primera es siempre identificar el tipo de eventos, es decir podemos hacer un resumen, ver ese gráfico de los cines negros y los cines blancos ver qué tipo de datos me interesa una vez que nosotros sabemos qué tipo de datos son los que nosotros tenemos que ir a cazar o que nos proporcionan valor a nuestro negocio pues elegir las herramientas que se ajustan vale un Néstor en tiempo real un Hadoop, unos servicios escalables ir un poco dividir venceras también en el algoritmo o en el planteamiento de la solución y luego el tiempo como factor clave es decir si yo tengo una manera es decir antes nosotros con la arquitectura que teníamos muchísima más complejidad por ejemplo para reducir un poco el tiempo con Hadoop ser un esquema dividir venceras más reducible tenemos esa capacidad de aumentar máquinas de aumentar capacidad para poder rebajar y controlar un poco ese factor comentar que estamos ahora metidos en un proyecto que se llama EuroSentiment es un consorcio de empresas de Europa que lo que hacen es trabajan con visdata entonces tenéis ahí Aderia, Espersiste, FBK, Sindice y un grupo aquí también de la Politécnica entonces un poco lo que estamos intentando crear es un put de recursos lingüísticos y de tecnologías en el que otros socios se vayan también integrando y poder proporcionar al usuario final un producto de calidad de sentiment analysis multidioma entonces este es un poco el idea del proyecto estamos arrancando con él estamos definiendo las arquitecturas las integraciones y bueno pues la verdad que yo creo que hará bastante ruido en un futuro aquí tenéis algunas referencias de bibliografía que hemos usado y bueno pues nada más a final solamente deciros que este es nuestro punto de vista de cómo hemos resuelto nuestro problema que al final visdata es muy grande hay un montón de problemas y un montón de casuística a escuchar también vuestras preguntas tenéis aquí nuestro twitter y el blog de nuestro departamento en el que bueno vamos poniendo resultados tenemos también software por ejemplo para el tema de los servicios una simulación con cadenas de marcos para calcular cuál es la configuración más adecuada etcétera y bueno yo creo que esto es todo así que nada muchas gracias no sé si hay tiempo para preguntas os quería preguntar habéis hablado mucho de la lenguaje natural es un área seguro que fascinante pero de la que personalmente no tengo ni idea pero temas de machine learning o análisis estadísticos estilo k-minx clustering clasificadores de base trabajáis con ese tipo de cosas porque personalmente hablan viendo hadub estudiando cosas de machine learning pues sí hemos estudiado muchos APIs hemos aprendido muchas cosas de lo que es informática pero justamente el tema de estadística parece que es como una barrera no es necesariamente el mismo tipo de skills y quería preguntaros si os habéis enfrentado eso como barrera te refieres un poco a la que si hay herramientas para implementarlo ya sobre vidata no tanto que haya herramientas que las hay sino como que realmente interpretar los resultados de esas herramientas o configurarlas bien o saber qué tipo de modo lo realmente aplicar pues quizá requiere un conocimiento estadístico que no está pues yo creo que hace falta un conocimiento estadístico cuando estás manejando modelos o algoritmos de machine learning etc a la hora de ver los resultados pero por ejemplo nuestra experiencia utilizando machine learning por ejemplo con métodos de recomendación cualquier tipo de clasterino inclusive métodos un poco nuestros de crear un grafo calcular distancias entre gustos de clientes por ejemplo con bastante positivo además trabajar con tener acceso a bases de datos que sean grandes por ejemplo por poner el típico ejemplo teórico de las compras de usuario, los gustos etc trabajar con vidata la verdad que te da da mucho juego a la hora de poder procesar todos esos datos y poder aplicar un montón por ejemplo de métodos de machine learning por ejemplo y ver los resultados de una manera rápida es decir se agradece mucho a la trabajar por ejemplo por decir Mahaut que tiene un montón de librerías puestas realmente lo que quería preguntar era hace falta tener un doctorado en estadística para sacar valor de estas cosas o no? yo creo que hace falta igual un doctorado no pero una formación algo fuerte o sea si tú por ejemplo estás utilizando la antes semántega análisis y tienes que configurar por ejemplo en qué dimensión quieres a partir de qué dimensión quieres reducir no pues ese parámetro como lo configuras me refiero o el camings por ejemplo si tú no sabes que tú el K ese lo tienes que dar a priori a la hora de calcular los clastherin no sabes igual tienes que por ejemplo tirar con un por ejemplo utilizar mclass con R con la librería en parada de revolución a la hora de que te haga por ejemplo una inferencia que te da el mejor valor óptimo o sea al final si lo puedes utilizar puedes ver los resultados pues yo creo que cuanto mejor dominio tengas del medio pues no sé si hay alguna pregunta más o bueno pues muchas gracias por vuestra atención