 ¡Nerea! ¡Bienvenido! ¡Hola! Buenas, ¿qué tal? ¿Cómo estás, Nerea? ¡Bienvenido! ¡Bienvenido! ¡Bienvenido! Nerea, tienes el desafío de comenzar la noche, que tuvimos un mañana muy poderoso. La noche es muy promisiva. Y, me refiero, de nuevo, a las conversas para enviar preguntas para Nerea. Cuando comienza la conversa, estoy seguro de que hay muchas already. Así que podemos pasarlas a ella al final de su conversa. So Nerea, whenever you're ready, we are all ears. Thank you, gracias. Bueno, pues, en mi caso, la verdad es que cuando, bueno, tenía esta opción, de dar esta charla, y me gustaría, sobre todo, que sirviese a modo de reflexión, del punto en el que nos encontramos y de hacia dónde está evolucionando una disciplina que a mí me encanta, que es la de la ciencia de datos. Esta pregunta que planteaba, la de, si los data scientists están al borde de dejar de existir, bueno, pues, viene un poco de esta reflexión que yo he hecho, que ahora quiero compartir con vosotros, y que espero que, sobre todo, sea una charla diferente, quizá las que os vais a encontrar. Yo soy doctor en ciencia de la computación, llevo ya bastantes años en esto de la inteligencia artificial, y, bueno, tuve la suerte de aprender lo mejor del mundo académico, y ahora estoy aprendiendo de la empresa, con lo cual tengo también la opción de aplicar la inteligencia artificial a los proyectos que hago en el día a día. Tengo también una página web, hago mucha divulgación al respecto, y bueno, pues, espero, sobre todo, como decía, que esto sirva, para ilustraros, bueno, pues, en el tipo de cosas que hacéis en el día a día. Para los que no estén muy familiarizados con el concepto de los data scientists, no, pues, en qué consiste, al final, nuestro trabajo como científicos de datos. Sabéis que tenemos, bueno, pues, un gran, vamos a decir, dedicación, una gran dedicación a explorar fuentes de datos, a saber unificarlas, agregarlas, a saber limpiarlas. Muchos estaréis familiarizados con esto de la exploración, de la análisis exploratoria de datos, y muchos os habréis pegado, y tendréis todavía dolores de cabeza, y tenéis, toma, aquí tienes este proyecto nuevo, dale caña, a ver qué sale, a ver cómo puedo explotar, sacar toda la mina de oro de los datos. Y después pasamos siempre a esa parte del modelo, también te diosa, porque al final no sólo tenemos que escoger cuál es el mejor modelo, perdón, algoritmos, sino también, bueno, pues, como eso se ajusta al conjunto de datos que tenemos, luego cada algoritmo sabéis unos parámetros que podemos optimizar, en mejor o menor medida, y después tenemos una fase bastante moda, que es la del despliegue, ya sea un entorno de testeo o de producción. Y eso lo podríamos resumir en este bucle que veis aquí, en este diagrama, donde efectivamente tenemos, pues, los conjunto de entrenamiento, el conjunto de validación, sabéis que este segundo es opcional, tenemos nuestro algoritmo de machine learning, que va a hacer toda esta magia, si nos dedicamos a ser científicos de datos, y después tendremos nuestros conjuntos de test que nos permitirán examinar al modelo, y de esa forma obtener métricas y seguir mejorando, es decir, que si resumimos todo esto en un slide, tenemos esta metodología de trabajo, y esto es bastante habitual, encontrarse lo hoy en día en los equipos de inteligencia artificial. Tenemos esta fase de análisis previo, y luego esa fase de jugar con el modelo y mejorar bien. ¿Qué es lo que sucede? Que esto realmente, si analizamos esa metodología, de tener estas fuentes de datos, después bueno, esto responde a una pregunta que usted quiere hacer, que al final es esa tarea de aprendizaje que tú quieres llevar a cabo, y después bueno, pues en cómo hace ese modelo y lo mejoras en función de los datos que ha recogido y de cómo va aprendiendo, etcétera, etcétera, esto nos hace recordar un poco a ese método científico que nos cuentan en las universidades, es decir, realmente el científico de datos podríamos decir que es esa figura que sale de los laboratorios que tiene muy inculcado ese método científico, aunque no sea consciente de que lo aplica en todo su día a día de trabajo, porque al final se dedica a observar, en este caso los datos, el comportamiento de los datos se dedica también a observar el modelo, busca más información, al final está formulando también una hipótesis en cierta medida, es decir, porque tú tienes ese reto que quieres resolver y toda esa experimentación la haces en este caso con algoritmos, ¿no? Entonces, sabiendo esto es mucho más sencillo entender cuál ha sido esta evolución del perfil y en qué punto nos encontramos porque hasta ahora estaréis de acuerdo conmigo en que el stack técnico que se enseña y el que se utiliza habitualmente sobre todo en perfiles más junior, ¿no? Está claro que es el lenguaje de programación Python, en su efecto R, pero mayoritariamente podríamos decir que es Python, y luego tenemos sendas librerías, pues según para lo que queramos, ¿no? Tenemos el tratamiento de los datos o sonarán non-py y pandas, tenemos visualización donde cada vez existen más librerías también, que nos ofrecen alternativas como C-Born o MatLolive, y tenemos también otras que se dedican al puro aprendizaje automático clásico, ¿no? Cómo podrían ir, learn o stats models, ¿bien? ¿Hasta aquí todo guay? Después viene la parte ya en la que nos empezamos a convertir en medio desarrolladores, ¿no? Estos científicos de datos, estas personas y entonces, bueno, pues algunos optarán por tener editores, otros optarán por tener ides, ¿vale? Python, quizás es el más conocido luego tenemos la versión también con Spider, ¿no? Que nos provean a Konda y después algo que sin duda nos ha encantado, estos años son los notebooks, ¿no? Estos cuadernos donde podemos intercalar trozos de código con trozos de texto con lo cual se hacen autoexplicativos. Hay gente a favor y en contra de los notebooks, ya lo sé, pero tampoco es este motivo de la charla, es simplemente daros, bueno, pues, el stack, ¿no? Que se suele utilizar a una día de hoy en estos perfiles Data Science. ¿Qué más tenemos? Como desarrolladores, estarís a mí de acuerdo conmigo en que nos encantan los frameworks y si bien es cierto que otros lenguajes, ¿no? Depinden de muchísimos frameworks, ahora no podemos decir que el machine learning no sea otro más que también ha construido sus propios frameworks. Con lo cual, tenemos muchísimas opciones, es decir, tenemos opciones que van desde, bueno, pues Google está desarrollado, como TensorFlow o Keras, ¿no? En colaboración con Francois, tenemos Microsoft, tenemos Amazon donde está en Xnet, quizá menos conocido. Tenemos Facebook con PyTorque, que ahora está forando bastante fuerza y, por supuesto, en paralela los frameworks tenemos toda la evolución del deep learning, es decir, si observáis esta gráfica, de hecho se ve muy bien, arriba tenéis todo, bueno, como los avances o los milestones relacionados con deep learning, abajo tenéis aquellos relacionados con machine learning y podéis estar de acuerdo conmigo en que hubo una parte, ¿no? Alrededor de los 70, los 80, donde incluso los 90 fue, bueno, pues una tecnología que avanzó bastante especialmente a nivel teórico, pues sabéis que en ese momento las máquinas tenían la capacidad computacional que tienen ahora, y sin embargo veis que luego hubo como una especie de parón, es decir, en los 2000, ¿no? Entre los 90 y los 2000 la verdad es que no hay muchos avances, pero sí que partir de 2012 empieza a remontar el tema, ¿no? Y yo cuando veo esto y con los años que llevo dando formaciones digo qué ha pasado aquí, ¿no? O sea, ¿por qué nadie se ha parado a analizar lo que ha sucedido aquí? ¿Por qué todos estamos hablando de deep learning? Y porque eso nos ayuda también a ver hacia dónde va a evolucionar esta figura, y ahora lo vais a entender. Resulta que cuando, bueno, pues metes, ¿no? La línea temporal en esta evolución de los frameworks, ¿no? Te das cuenta de que aquí hubo un cambio alrededor de 2014-2015, hubo un cambio de tendencia que así aparentemente parece que no se explica, ¿vale? Pero cuando lo contextualizamos con más información, que esto también es un trabajo que hacemos en los científicos de datos, nos damos cuenta de que todo este resurgimiento de frameworks, todo este avance de TensorFlow operas, etcétera, resulta que tiene bueno, pues un culpable, ¿no? Y esto empieza con los Jupyter Notebooks. Cuando se publican los Jupyter Notebooks a su vez casi sale la primera versión de TensorFlow, aunque no se hace tan famoso hasta un poquito después. Y esto es un granito, es un granito porque como decía hasta ahora, ¿vale? En los científicos de datos o las personas que trabajaban en el mundo académico en los laboratorios no tenían frameworks, no podían reutilizar lo que hacían. De hecho, incluso no había como una buena práctica de publicar el código de forma habitual de todos estos modelos que siguen generando. Y esto hacía que cuando tú empezabas a trabajar en el problema de machine learning, tú vices que empezar mayoritariamente desde cero incluso reimplementando, ¿vale? Toda que Jupyter se contaba en los papers. Y es lo que nos encontramos con Jupyter y con TensorFlow, que empezamos a reutilizar mínimamente lo que hacemos, ¿vale? Por otro lado, surge también este momento en el que DeepMind, la empresa que después adquiere Google, publica dos trabajos muy importantes que tienen que ver con el desarrollo de lo que sería después el deep learning, ¿vale? Por un lado, a la izquierda, tenéis el trabajo que se hizo sobre los juegos de la Atari. En este caso, fue utilizando aprendizaje por refuerzo. Y se dieron cuenta de que simplemente con los cambios de píxeles, de colores de los píxeles podían construir algoritmos de aprendizaje por refuerzo que aprendiesen las reglas del juego y que se convirtiesen en expertos a la hora de jugarlos. Eso fue primero. Y esto ya levantó todas las alarmas. Este paper se publicó de hecho en Nature. Y ahora, después, llegaron y ganaron también con otro algoritmo basado en deep learning al campeón mundial de Go. ¿Vale? Estos dos hechos que están documentados, incluso se ha hecho algún documental en vídeo sobre este último. Claro, de repente toda la comunidad académica se focalice en qué está pasando con esto del deep learning y aún más porque se está avanzando en empresas, más que en el propio mundo académico. Dismal no quiere Google y a raíz de todo esto veis que todas estas tendencias se utiliza ese Google Trends, lo vais a ver enseguida. Se ve claramente que ya a partir de 2015 digamos que no hay vuelta atrás. Bien. Esto ha pasado con machine learning con deep learning, artificial intelligence y cualquier otro término que busquéis. ¿No? ¿Qué es lo que pasa? A partir de ahí, a partir de 2015 se empieza a vivir un fenómeno que es el de la aceleración de esa construcción de los modelos. Es decir, empezamos por Jupyter Notebooks. Aparecen clones de todo tipo. En cada cloud tiene uno. Podemos hablar de Google Collaboratory por ejemplo. En este caso lo que nos encontramos es una plataforma que directamente nos da un entorno de paición completamente funcional. Con lo cual es mucho más sencillo que ya me pongo a trabajar. ¿Vale? Hemos superado el primer paso, que es el del entorno. Por otro lado un problema que tenía TensorFlow era que era complejo de programar. Está muy basado en C++ Entonces, ¿qué pasa? Que no mucha gente se animaba a trabajar en el tema este. ¿Hasta qué surge que eras? ¿Qué eras? Surge como una especie de wrapper sobre TensorFlow que abstrae todas esas partes más difíciles y que hace al menos ese primer pasito que tienes que dar hacia las redes de donales sea muy muy muy sencillo. Está muy focalizado en construir arquitecturas de redes donales en pocas líneas de código. ¿Vale? Y además nos dan una característica que podría pasar en esa percibida que es la más poderosa y es la de exportar modelos. Es decir ¡Ostras! Si yo hago todo en investigación, tengo aquí mi código es replicable. ¿Vale? Sí. Pero si tú me das una especie de .zip, ¿no? Que yo de repente pueda meter directamente mi ordenador sin tener que replicar todo lo que tú has hecho simplemente utilizando el mismo framework eso mola mucho más, ¿no? Y eso es lo que nos ha permitido en los últimos años que el machine learning avance a pasos agigantados. En concreto cuando hablamos de deep learning porque pensacen todas las horas de entrenamiento en todos los datos, en todo el esfuerzo que se ha realizado, es decir aquí sí que estaba sucediendo algo, ¿no? Y entonces lo que empezó a suceder es que ahora que ya podríamos exportar modelos, por supuesto se reduce el tiempo de desarrollo pero seguía habiendo dos tareas que a los Datas Scientists nos dan un poco por saco, mal dicho que viene a hacer la optimización del modelo por un lado y el preprocesamiento de los datos. Es decir todo lo que tiene que ver con la limpieza con las fuentes agregadas, etc. Cuando nos enfrentamos a estas dos tareas, claro, las primeras veces estar muy ilusionados la primera vez que no lo haces, pero cuando de forma prolongada esto se complica. Empieza a saber que esto es una cosa de prueba y error, no existen recetas a veces, ¿no? Hay un componente también muy matemático que hay que entender y según de la rama de la que procedas y más informática, más informática de matemática o de física, ¿vale? Nos puede costar un poquito más con lo cual esto hace que empelemos ahí mucho tiempo y estar a veces un poquito aciera, ¿no? Y por eso también este es el siguiente paso que se da en la automatización del trabajo de un científico de datos. Es decir, ¿qué pasa si conseguimos tanto optimizar el modelo de forma automática como automatizar esa limpieza o al menos ese análisis de los datos, ¿vale? Lo primero que surge a partir de de la librería de Scikit Learn se pone muy de moda una cosa que se llama Grid Church. Grid Church, al final, no es otra cosa que coger tu código, meterle un conjunto, ¿no? Primero de parámetros que quieres probar y con ello, ¿vale? Pues intenta encontrar la mejor configuración posible dentro de ese espectro de parámetros que tú le has dado, ¿no? Un poquito parecido a este código que os pongo aquí de ejemplo. ¿Qué pasa que el Grid Church, bueno, pues yo puedo dejar que corra tanto como quiera o puedo ponerle una listoping, lo que sea, ¿no? para que en algún momento me diga oye, pues este es el mejor modelo que he encontrado. Y esto nos va gustando más, la verdad, porque cuando reduces el tiempo no hacer toda esta prueba en vez de hacer la manual, ya empiezas a meter ahí como el conjunto de números, imagínalo si además somos capaces, ¿no?, de hacer esto que vaya solo, que vaya solo, ¿no? Claro, Grid Church funciona muy bien cuando trabajamos con agorimos de machine learning clásico, porque digamos que tienen un conjunto de parámetros limitados, pero volvemos a que lo que nos gusta nosotros es el deep learning, ¿no? Es el deep learning y entonces tenemos que aprender a trabajar con parámetros un poco más tedioso, sobre todo el número, ¿no? Y nos vamos a la red de neuronas, nos vamos a la red de neuronas, entonces, sabéis que tenemos dos cosas, tenemos parámetros y tenemos hiperparámetros. Si nos teníamos a los hiperparámetros, sabéis que o seguramente sepáis que son aquellos que podemos tocar, ¿vale?, podemos tocarlos, están en el código, significa que los puedo cambiar manualmente y yéndonos a la red de neuronas, pues serían, por ejemplo, el número de capas ocultas, el tipo de función de activación, ¿vale?, todo ese tipo de cosas que vamos personalizando, eso lo podemos elegir nosotros, o podemos al menos tener una malgama de alternativas, ¿no? Sin embargo, hay otros, hay otros que nos dan un poquito más la lata, que son esos parámetros que se man generando dentro de la red neuronal, ¿no? En todas estas estructuras, en todas estas multiplicaciones materiales, al final tenemos parámetros que solo es que van reteniendo el conocimiento, van haciendo que nuestra red converja van consiguiendo que el aprendizaje se materialice, ¿no? Y en este caso, claro, yo esto no lo puedo tocar manualmente, ni siquiera es transparente a veces a lo que yo hago. Entonces, claro, aquí hay como un salto, ¿no?, un salto un cualitativo en cuanto a la forma de trabajar porque, claro, mucha gente dice, ostras, si yo no entiendo cómo funcionan las redes de neuronas, cómo voy a entender un enfoque, ¿no?, basado en deep learning. Entonces, aquí el Green Church no nos funciona, no nos funciona nada bien, no sirve. Y por otro lado, estamos observando como todos los modelos estos famosos de redes neuronas que se utilizan en competiciones, ¿no? Cada vez tienen un mayor número de parámetros, es decir, el aprendizaje, el entrenamiento es más costoso, son modelos más grandes, cuesta más exportarlos, cuesta más también importarlos por ese. Y entonces, bueno, pues tenemos que ver qué pasa, ¿no?, si yo quiero, al menos partir de esa base y reutilizar lo que se ha aprendido para seguir yo trabajando como científico de datos, sin ser yo, ni Google, ni Amazon, ni todas de estas grandes corporaciones, por supuesto, que tienen digamos sus equipos de inteligencia artificial, bueno, pues específicos para cada una de las áreas, ¿no? Esto va sobre todo orientado a equipos generalistas de inteligencia artificial. Bueno, pues por un lado, nuestro aliado puede que sea el Transfer Learning, ¿no?, podríamos decir, bueno, si yo no puedo utilizar, si no puedo automatizar mi trabajo en gran medida, lo que sí que puedo intentar es reutilizar estos modelos, ¿vale?, y tratar de, bueno, pues enseñarles nuevas categorías a detectar otro tipo de cosas, ¿no?, basado en, bueno, pues todos estos modelos que salen de competiciones, como comentaba, ¿no? Transfer Learning, al final, es eso, que permite hacer como puentes entre modelos y seguir construyendo en base a lo que otro ya ha empezado a decir, dejo de entrenar desde cero para entrenar desde una base. Eso también es algo que nos favorece en nuestro desarrollo, ¿no? Y es algo que a los científicos de datos también les ha ayudado un montón, aprender a trabajar con modelos para entrenados antes no era tan habitual. Y recientemente ha cobrado mucha fuerza esto que veis aquí y es sobre todo en la parte en la que me quiero centrar, ¿no? Al final, lo que estamos observando en el mundo del Machel Darling es que existe muy poca gente experta en lo que se llama Hyperparameter Tuning, ¿no?, que es el cómo, bueno, pues hacemos todo ese tuneado de parámetros y perparámetros, etcétera. Y de cómo entendemos las redes de neuronas a bajo nivel, ¿no?, y todo ese aprendizaje. Es decir, si dejamos de tener criterio, digamos, para saber cómo está evolucionando una red neuronal porque no somos expertos porque igual tenemos que trabajar en áreas un poquito más generalistas, las empresas empiezan a atirar de AutoML, ¿no?, de frameworks en concreto de AutoML, que lo que nos permiten es extraernos un poco de ese bajo nivel de el entrenamiento y de la parametrización para darnos directamente una especie de caja que hace todo esto por nosotros, ¿no? Podríamos decir que AutoML, que nos significa otra cosa, que AutoMatch y el Learning es la forma de ofrecernos un conjunto de algoritmos con un conjunto de modelos en consecuencia entrenados listos para usarse y de los cuales yo puedo ir directamente a supervisar. Es decir, me obvido un poco de esa carga que yo tenía que realizar durante el entrenamiento, le clico, ¿no?, como al play y entonces obtengo algo resultante, ¿vale? Pero sí que necesito tres cosas para que esto funcione. Sigo necesitando las métricas con las que voy a optimizar los modelos, ¿vale? Si voy a optimizar el error, se voy a optimizar a través de otro tipo de métrica y necesito también saber si tengo, por supuesto, restricciones de tiempo y costes locales, también algo relevante. Dicho esto, el algoritmo de AutoML según la tarea que quieras realizar, se van a cargar de ir hacia un lado o hacia otro, siempre optimizando el modelo, ¿vale?, dentro del espacio de búsqueda de modelos. Y con esto, ¿qué ha pasado? Pues tenemos más o menos dos enfoques. Lo que ha sucedido es que han proliferado un montón de servicios en el cloud, ¿no?, de estas grandes corporates, donde ya lo que nos ofrecen son herramientas que podríamos decir casi de no code o de low code, que directamente lo único que nos piden es, oye, dame los datos de esta forma etiquetados con su clase y yo me encargo del resto, ¿no?, y yo lo que te devuelvo es una especie de dashboard donde te voy a poner, bueno, pues todas las métricas que he obtenido, te las voy a dar, tú te encargas de interpretar si son buenas o malas, y yo hago todo el trabajo, vamos a decir, sucio, ¿no?, o menos agradable. En este caso, ¿para qué sirve esto? Bueno, yo lo encuentro una utilidad muy grande y es para estimar, sobre todo, si la tarea en la que nos vamos a meter, si el proyecto que vamos a abordar está, quiere decir, es fácilmente tangible, ¿no?, o sea, si es alcanzable. Sobre todo porque yo me encuentro que muchas veces lo que nos preguntan, no los clientes, es, oye, ¿cuánto voy a tardar en ver algo? ¿Cuándo me vas a poder enseñar resultados, ¿no?, y estas herramientas, así que, para ese nivel de prototipado, nos pueden ayudar un montón a nosotros sentir confianza o al menos un poquito más de confianza en esas estimaciones que tenemos que hacer, ¿no? Cabe decir o sobre decir que estas herramientas de AutoML, sobre todo, estas que se ofrecen como servicio, al final trabajan mucho mejor, cuando nos adaptamos al tipo de servicios que nos ofrecen, aquí estoy viendo la de AutoML Edition de Google Platform y, bueno, esta te ofrece dos tipos de tareas, ¿no?, generalmente la de detección de objetos y la de clasificación. Entonces, siempre que te finias, más o menos, a esas dos y tengas un conjunto de datos bastante amplio y bien etiquetado, pues generalmente bien, al menos como un baseline, ¿no?, nos puede salir bien. Por otro lado, el otro enfoque es que, claro, han surgido también un montón de herramientas open source y esto ya es más interesante, porque, claro, si nos llevamos esto, digamos a esos frameworks, ¿no?, que veníamos viendo, TensorFlow, que era Spider, etcétera, si yo lo sumo a que dispongo de estos notebooks, ¿no?, de estos Jupyter notebooks, que además son muy útiles pues para formaciones y para enseñar cosas visuales también a los clientes llegados al momento, pues en este caso vemos un poco de todo, ¿no?, vemos algunos frameworks que se han centrado más en la parte del dato, vemos otros que se han centrado más en machine learning con datos tabulares, vemos otros que se han centrado más en la parte de supervisión, ¿no?, y de evaluación y vemos otros que directamente nos ofrecen hacer una cliva de todas las features, ¿no?, o incluso hacer esas golden features y combinarlas bueno, pues, para tratar de trabajar un poquito más esos datos. Y esto sí que a mí me parece un gran avance porque no sólo bueno, intentan no ser cajas negras o al menos no del todo, sino que bueno, pues nos dan una capacidad de prototipar muy, muy, muy amplia utilizando librerías open source como pueden ser las de SciKiller, ¿no? O se ha dejado un link con una lista curada de librerías que hay en un repositorio de GitHub, que me parece muy interesante porque yo hay muchos que conocía pero en la mayoría, ¿no? Y creo que nos pueden ayudar un montón en todos nuestros desarrollos. Yo os voy a hablar aquí de dos ejemplos que yo he utilizado, por ejemplo, para prototipar, ¿no?, para prototipar, sobre todo, como tenemos que decirle algo rápido al cliente o cuando estamos en competiciones de tipo jacatón, donde tienes que llegar pronto, ¿no?, a algo enseñable y me parece que combinar ambas es muy potente, es muy potente. La que tenéis a la izquierda que me llama Pandas Profiling no es puramente AutoML, realmente es el paso previo que viene antes de lo que te hace o lo que te hace el favor, ¿no?, lo que te ayuda a obdelizar Pandas Profiling es todo ese proceso del análisis predatorio de datos te lo automatiza, ¿no? Y te da, bueno, pues, una serie de insights sobre tus datos, te da también una serie de warnings y te deja ver, bueno, pues, desde la distribución de los datos hasta la correlación, de forma manual, se acabó podéis simplemente ejecutar este Pandas Profiling y podéis ver todo el resultado que os da y vais a tener una visión, bueno, mucho más amplia de vuestros datos en apenas 10 minutos, ¿no?, de ejecución y a la derecha tenéis MLjar, esto es verdad que debo dar las gracias a Gemma Parreño, que fue la que me descubrió esta librería y desde entonces no he parado de utilizarla, me parece un frame, una librería Open Source, que casi se podría llamar Framework en sí mismo, porque, bueno, pues, la verdad es que tiene un montón de algoritmos, digamos, autocontenidos, tiene un montón de scripting y lo que me gusta de esta librería ya no es sólo que te devuelve, bueno, pues, un conjunto, como un ranking, ¿no?, de modelos con toda su configuración con todas las pruebas que ha hecho, sino que es que también te lo da de forma visual, te lo da en formato Markdown, puedes directamente acceder a ese ranking implicando en cada uno de los resultados y puedes ver todo el proceso de la evaluación, esto significa que todas las métricas que existan en librerías de tipo Scikit Learn las vas a tener tanto en forma numérica como en la gráfica equivalente y eso también te ayuda a enseñarle, bueno, pues a la gente más unido, ¿no?, cómo empezar a interpretar el modelo de Machine Learning, porque es algo que no siempre se enseña, es decir, estamos muy focalizados en hacer los modelos mejores y tener esta prueba y error, pero muchas veces invertimos muy poco tiempo en esa evaluación posterior de los modelos, ¿no?, también porque, bueno, pues nos encontramos en un momento quizá menos maduro de la inteligencia artificial, pero esto sí que nos va a ayudar a, bueno, pues alcanzar ese momento y sobre todo a jugar con muchos algoritmos que desconocemos. Siempre tenemos ese sesgo, ¿no?, de que, bueno, pues lo que conocemos es lo que solemos utilizar primero y la verdad es que esta librería me ha ayudado también otro tipo de técnica, otro tipo de bueno, de sistemas complementarios que se pueden acoplar a lo que yo solía hacer, ¿no?, para abordar un problema de este estilo. En general, se podría resumir el pipeline que yo he seguido para aplicar estas dos librerías en esta serie de cajitas, ¿no?, o sea, cargamos el dataset utilizando pues, por ejemplo, pandas, ejecutamos este pandas profiling, ¿vale?, analizamos todos estos warnings además, si queremos, podemos normalizar también los datos según lo que consideremos y ya con esos datos estandarizados, bueno, pues podríamos directamente llamar a MLjar y que haga el trabajo por nosotros, ¿no?, MLjar puede correr horas si lo dejas, tiene tres modos tiene un modo competición más orientado a temas de Kaggle y luego tiene un modo explain, que no lo he dicho, donde también te corre, bueno, pues algoritmos que tienen que ver con la explicabilidad de la inteligencia artificial, sobre todo que te dicen pues que features son más relevantes, ¿no?, y, por ejemplo, pues los shape and values que ahora se han puesto también muy de moda y también como decían los de las métricas clásicas, ¿vale?, de machine learning que es otra cosa buena, cuando terminas este pipeline te das cuenta de que MLjar también se ha guardado todos y cada uno de los checkpoints de tu modelo, es decir, para cada uno de ellos tienes un JSON con todos los parámetros que ha utilizado para configurar cada uno de tus modelos y también tienes el punto en el que se han quedado entrenando, con lo cual luego puedes reentrenar todos esos modelos que ha ido mejorando progresivamente, ¿vale?, me parece una librería ya os digo muy cómoda y sobre todo si trabajáis también en el sector académico creo que puede ayudar también a mejorar, bueno, pues esa trazabilidad de los experimentos que pueden ir después en un paper, ¿no?, me parece ya os digo algo muy útil. ¿Qué quiero decir con esto a modo ya que hay conclusiones? Ahora que os he hablado de estas librerías y de estos avances pues que el trabajo manual de la ciencia de datos cada vez se reduce más, yo os hago que vengo observando ya hace tiempo, sabéis que también hay mucha demanda de ingenieros de datos y los dos perfiles pueden convivir perfectamente, pero es verdad que ahora mismo mi sensación, al menos es que hay mucha más demanda de ingenieros de datos, porque aprender a trabajar con la nube y montar todo esto requiere de ese trabajo, ¿no?, al final el trabajo del Data Scientist llega una vez todas las tuberías de estas están bien puestas, pero sí que el Data Scientist creo que van a tener un rol súper importante a la hora de interpretar los resultados, es decir vamos a dejar de ver quizás Data Scientist que trabajaban pues tanto manualmente no todos estos comandos de la librería de pandas, de matlo en libre, etcétera y que se van a ir adaptando al uso de estos frameworks y al uso sobre todo de todas estas métricas de evaluación, toda esta explicabilidad toda esta trazabilidad de los experimentos y cada vez se van a volver más expertos en esa parte dejando en poco de lado todos los que hacían antes manualmente y que tanto tiempo les consumía por eso quería hacer esta charla porque creo que es un momento también muy bueno para los Data Scientist y para todas estas formaciones que hacemos las orientemos también hacia este tipo de avances porque creo que es el futuro sobre todo en las empresas como os decía que se dediquen a ser más generalistas en el área de la inteligencia artificial y sobre todo porque ahora llega algo muy interesante que son bueno pues los sistemas que ponemos en producción, empezamos a ver ya casos donde queremos pasar de la IA como un mero piloto, hay a poner algo en producción y empezar a coger datos de ese entorno real en el que está funcionando y esto sólo se puede hacer si tenemos Data Scientist capaces de evaluar e interpretar todos los modelos correctamente entonces las conclusiones de esta reflexión que quería hacer con vosotros es que bueno a pesar de todo yo creo que la figura del Data Scientist no va a desaparecer, quizá se va a fusionar más con esto que tomamos ahora Machine Learning Engineer que también tiene más responsabilidad a la hora de observar y montar ese pipeline de Machine Learning en producción pero desde luego no va a desaparecer, está lejos de desaparecer sí que creo que debe migrar a no anclarse sólo en esta parte manual y abrirse también a estas opciones de AutoML, aprender a integrarlas en su desarrollo y sobre todo para que le sirvan para tomar decisiones sobre todo basadas en datos, que eso es algo que nos gusta especialmente creo que las herramientas AutoML van a proliferar mucho más ya está claro que ya no sólo una tendencia es una cosa ya de utilización casi a diario de este tipo de frameworks y sin duda, como decía creo que para casos generalistas nos pueden ayudar mucho a entender el alcance o a entender lo fácil, lo difícil el esfuerzo que vamos a tener que dedicar en función de los datos que por ejemplo nos da un cliente los perfiles de Data Science yo creo que como ya decía van a aprovechar todas estas herramientas y espero sobre todo que se centren en esta parte nueva, más centrada en esa interpretabilidad creo que hay mucho trabajo que hacer también en la transparencia y en la explicabilidad de los algoritmos y estamos viendo sólo la punta del ICBER y sobre todo no os olvidéis de los científicos de datos en todo lo que es por supuesto el pipeline de lo que es el mundo data pero también especialmente los modelos en producción, creo que hay muy pocos casos de uso que realmente puedan funcionar bien porque esto requiere meses, años de trabajo, quizá en empresas de productos más fácil en consultoría quizá más difícil porque los tiempos son más cortos y trabajas en múltiples proyectos pero sin duda creo que va a ser un momento muy dulce el que vivimos en los próximos años para ver cómo conviven estas figuras de Data Science con los nuevos Machine Learning Engineer y nada os animo a todos y a todas a seguir aprendiendo sobre estos frameworks para mí ha sido todo un descubrimiento en estos dos años que llevo en el mundo empresarial y nada ahí tenéis mi contacto si queréis saber cualquier cosa ahora encantada de responder vuestras preguntas y si no por internet también lo podemos hacer online y por supuesto pues darle gracias a Singular por dejarme este tiempo para daros esta charla y oye yo encantada si queréis animaros a ver las ofertas que tenemos y las cosas que hacemos hay dejado también la web así que nada muchas gracias y espero que les haya gustado muchísimas gracias Nerea madre mía bueno me encanta cuando dices llevo dos años en la empresa ver si algún despista del público se cree que Nerea a pesar de su aspecto tan juvenil es que Nerea es una crack de lo suyo que es una de las problemas que se te ocurrirá siempre que se te ve tan joven que dicen pues no sabrá nada no te pasa lo de ser mujer no ayuda pero vamos eso vamos a cambiar poco a poco verdad Nerea además Nerea recibió la medalla con decoración a la orden del mérito civil verdad el año pasado que se la impuso el rey Felipe Sexto o sea que aquí donde la veis agarra atención entonces Nerea tenemos muy poco tiempo te hablo en español puesto que tú has hecho tu ponencia en español I'll be back to English in a minute te la voy a hacer en español voy a juntar dos preguntas en una bueno en principio estamos todos mucho más tranquilos porque ya sabemos que hay futuro presente y futuro o sea que tranquilidad pero en relación de hecho la una de las preguntas es en relación un poco a lo que comentaba esta mañana pues yo creo que ahi ahora no recuerdo si era monse monseguardia de big onion que hablaba del humanismo con la inteligencia artificial un poco esos perfiles un poco más humanistas te preguntan en inglés aunque la traduzco sobre la marcha cuáles son las soft skills más importantes que deberían poseer los data los data scientist data scientist que tú has hablado al final de ese perfil más generalista y ahora saber interpretar no más que entonces qué crees que esas soft skills y si ese perfil pues eso va a ser un poco más abierto que hasta ahora no pues mira no sé me gusta mucho esa pregunta porque porque quizá la gente piensa que que todos los que trabajamos en estos somos ingenieros yo sí lo sois verdad que no sois, que lo sois yo trabajo habitualmente con personas que vienen bueno que estaban en su día en el mundo en el mundo vío o estaban en su día en el mundo de la lingüística y ahora pues digamos que tenemos unos perfiles muy híbridos qué recomendaría yo a nivel de soft skills pues sobre todo que sean capaces bueno pues de trabajar la escucha activa un problema que nos ocurre a los data scientist o a las personas que trabajamos en machine learning es que tu trabajo no son solo los datos es entender el contexto existente con trabajar todo ese entendimiento del contexto de entender el caso de uso pero entender también cómo se trabaja eso en el día a día y esa creo que va a ser una de las soft skills más importantes el saber comunicarse con otros perfiles quizá más los técnicos pero solo los que te van a pagar el desarrollo eso ya se hace habitualmente pues igual con gente de negocio pero ahora hay una parte técnica que creo que es el data science el que la debe asumir fue machine learning engineer para entender y aplicar muy bien tanto el caso de uso como luego saber explicar interpretar el resultado del modelo y comunicarse en este caso al cliente o al que esté pagando ese desarrollo eso sin duda para mí es lo más bueno y luego por favor que la gente aprenda inglés eso de verdad no eres el mejor ejemplo nerea si a ver te mato te mato como dices eso por supuesto aprender inglés y estos perfiles más generalistas humanistas y de hecho esta mañana cuando hablábamos con monse guardia de big onion exalastria como sabes su confundadora es Cristina Aranda que ella es doctora en temas de lingüística no recuerdo ahora bien exactamente pero vamos y que están inteligencia artificial o sea que se necesitan perfiles de este calibre nerea luís es un placer y un honor tenerte aquí porque eres una referente en este sector así que gracias por venir a big the big things conference 2021 2021 estaremos pendientes de lo que estáis haciendo por ahí en que estáis trabajando y esperamos verte muy pronto así que thank you and goodbye nerea luís muchas gracias bye bye