 Bueno, como sabéis, la Inteligencia Artificial ya empezó desde el siglo pasado, hay dos corrientes fundamentales que es la de la Tierra, la de la Tierra, la de la Tierra y la de la Tierra. Y la de la Tierra es la de la Tierra, la de la Tierra, la de la Tierra, la de la Tierra. Y la de la Tierra es la de la Tierra, la de la Tierra. Ya empezó desde el siglo pasado, hay dos corrientes fundamentales que es la conectivista y la simbólica. Y han ido como confrontándose, pero, sin embargo, cada una de ellas ha aportado. Primero, la conectivista fue el modelo basado en neuronas como el cerebro, el auge del perceptrón, pero después la corriente simbólica en la que se conceptualiza un modelo, en la que el conocimiento de los expertos se traslada a los modelos y está basado en reglas y es deductivo, tuvo un pico y después se desinfló y ahora vemos cómo ha vuelto a resurgir la Inteligencia Artificial basada en datos, que es un conocimiento inductivo a partir de datos, entendemos el entorno. ¿Esto qué relación tiene con la medicina? Pues a mí me gusta comparar con el PAPMED, porque el PAPMED da una idea de cómo va la investigación biomédica y vemos que desde el 2005 tenemos el auge del número de artículos publicados con el Keyword Inteligencia Artificial alcanzando 82.000. Vemos cómo la medicina está empezando a aprovechar los avances que se han hecho con la computación en Inteligencia Artificial. En medicina tenemos muchísimos datos, una gran riqueza, desde todo lo que son sensores, registros de enfermedades, historias médicas, datos de polizas de seguro, datos de los hospitales, datos de mortalidad, datos de imagen, en fin, muchos. Y lo que vemos es que podemos ver desde todos los ángulos la salud y el cuerpo humano y en este aspecto tenemos que podemos representar de una manera muy rica y podemos tener las herramientas necesarias para poder representar estos datos multimodales y por primera vez, pues digo por primera vez, representarlos de una manera que tienen significado biológico, en sí mismo, estas representaciones. Podemos introducirlas en los modelos neuronales y llegar así a tener una guía como diríamos virtual de la salud. Quisiera ahora explicar cuáles son unos ejemplos elegidos, unos ejemplos, los más representativos de cómo ha llegado y en la época en la que estamos ahora, cómo se está empezando a integrar la práctica clínica. Entonces, he escogido de revistas que tienen impacto el European Journal of Cancer, en el cual aquí vemos cómo se valida, la palabra validar es muy importante, medicina, validar, se valida un modelo ya entrenado en el que los dermatólogos, se comparan los dermatólogos frente a un clasificador de melanoma con imágenes dermatoscópicas, termoscópicas y se confirma la superioridad en la predicción de malignidad versus benignidad de las lesiones que parecen sus sospechosas de melanoma. Es muy interesante este artículo porque aquí lo que se ha hecho es comparar no solamente dermatólogos de un sitio o de un hospital, sino que es un estudio alemán y han cogido dermatólogos de muchos centros y se ha visto que el modelo tiene mayor capacidad predictiva. En este otro artículo, muy interesante también, de clasificación pronóstica de subtipos moleculares en cáncer de colon, vemos que hay unos subtipos que arrojan información pronóstica y potencialmente predictiva basado en la expresión de RNA de los tumores. Y lo que hemos visto es algo muy interesante y es que a partir de las imágenes de anatomía patológica, sin hacer ese estudio tan costoso o basado en expresión de RNA, podemos obtener el mismo clasificador o biomarcador pronóstico, que son los subtipos moleculares, el que está basado, pues el que responde, hay monoterapias, el que es más tipo elipitalial o el que está desregulado metabólicamente o el que es mesenquimatose y tiene peor pronóstico. Es muy interesante porque a partir de la imagen de AP, se puede obtener una de forma más sencilla, más incluso superior a la predicción que se hacía con la expresión de RNA. Este lo he elegido porque aquí en este caso es otro estudio de validación de ayuda al diagnóstico de cáncer de mamá, de VRATS, en el que se compara con respecto a 100 radiólogos. En este caso se hace un estudio de validación de no inferioridad. Es decir, vamos a ver si al menos el módulo predictivo es tan predictor o tan eficiente, mejor dicho, que los radiólogos. Y aquí vemos en esta gráfica el área bajo la curva que lo consigue y, encima, parece que es superior respecto a tanto sensibilidad específicida, según vamos escogiendo cada thriscoll. Aquí, además, me llamó la atención que los radiólogos se cogieron diferentes expertos. Se comparó desde lo que tiene más entrenamiento a los que menos. Y en la mayoría superaba la capacidad de predicción. Ahora me gustaría ir hacia atrás dos años. Estamos viendo modelos en los que, para tareas verticales, la área, la inteligencia artificial, es superior. Pero, sin embargo, vemos aquí comentarios como el de Andrew NG, el Stanford, en el 2017 que dijo. Un radiólogo entrenado, estoy seguro de que probablemente va a ser reemplazado, tiene más probabilidad de ser reemplazado que su propia asistente. Vemos la palabra reemplazar. Y aquí, Joe Fredginton, en Toronto, dijo algo también muy similar. Y, pues, yo creo que dentro de cinco años el deep learning va a ser mejor que los radiólogos. Bueno, pues, aquí hemos visto que es en parcialmente sí, porque sí, para actividades tareas muy específicas, lo consigue, no lo dudo. Pero debemos de parar de entrenar radiólogos. Ojo, demasiado, esto es hype, esto es un hype. No es cierto, aquí los médicos lo que tenemos son ayudas al diagnóstico. Y estamos lejos de que seamos reemplazados, cada uno de las especialidades. Yo soy oncólogo, no soy radiólogo. Pero aquí hemos hablado de otras aplicaciones en las que están dermatólogos implicados, también anatomopatólogos. Y lo que vamos a tener es una mayor capacidad para obtener juicio clínico y desarrollar nuestras prácticas clínicas. Y luego, aparte, me gustaría ver también, o sea, dar el concepto de qué puede opinar un médico con respecto a estos sistemas de información. Bueno, pues aquí vemos, dice, this is your machine learning system. Y dice, yo metes toda esta información y en esta gran montón de álgebra lineal para obtener un input, un output, perdón. Lo remueves, stir y nada, ahí ya tienes las predicciones. Pero qué es lo que pensamos de estos sistemas? Bueno, pues aquí hay que tener cierta prudencia, sobre todo porque existe una variación de las distribuciones de probabilidad de los datos con respecto a los training set con los que se han entrenado los modelos y con los datos operativos, que es los que tú intentas hacer valer tu modelo y para los que tú quieres utilizar tus modelos, que se llama personal data. Porque, pues muy sencillo, medicina se nos da el sesgo muy frecuente, que es el que los datos históricos quedan obsoletos enseguida. Es decir, la medicina va avanzando a un ritmo en el cual no puedes quedarte con un modelo entrenado hace dos años en oncología. No, o sea, va a estar. Luego, aparte, tenemos el problema de los out of sample input. Es decir, si hay un paciente en que su perfil no ha estado representado en esos modelos, pues, ojo, que ese modelo se lo va a inventar, no te puedes fiar mucho. O incluso que hay características que están sobrerepresentadas y pueden conducir a confounding factors, confounding factors que se dan al mismo tiempo que otro y que realmente son casualidades que estén asociados. Por ejemplo, aquí en esta radiografía de toras que se ve un paciente con fallo cardiaco, con suficiencia cardiaca, vemos, está lleno de tubos. Un modelo entrenado con pacientes que tienen fallo cardiaco cuando vea tubos, muchos tubos, va a darle una mayor probabilidad de tener un fallo cardiaco. Es decir, tenemos que tener modelos en los que seamos capaces de controlar estos confounding factors. ¿Qué soluciones tenemos? Bueno, pues, aquí hasta ahora los modelos que hemos estado viendo son los modelos que se han entrenado de manera histórica y se quedan cerrados, que se llaman Locked. Pero tenemos en el otro rango los que se podrían entrenar de manera iterativa. Lo cierto es que a nivel tecnológico no está madura la tecnología que hace que los datos puedan ir entrenando continuamente los modelos y abre nuevas brechas. ¿Qué es lo que se está haciendo? La FDA, por ejemplo, las agencias reguladoras o la EMA aconseja a los fabricantes de software es que una vez que el sistema está entrenado con datos retrospectivos o con datos retrospectivos o lo que se hace es que dentro de un determinado periodo de tiempo pues se le exija que se vuelva a reentrenar el modelo para que haya una monitorización. Por otro lado, es muy interesante o necesario que los dataset sean multicéntricos para que estén representados poblaciones de pacientes heterogéneas de muchos y que no hayan esos sergos que incluso el tipo de software de hardware que se utiliza para hacer las radiografías o para hacer las pruebas diagnósticas no interfiera como un confonding factor. Y además que una vez que el modelo está entrenado pues se valide en el clinical setting específico en el que se intenta generar un beneficio. Y, por supuesto, cuando tengas un caso en el que el modelo no ha sido entrenado pues que se informa al médico de que se niega a predecir ese caso por prudencia. Hay que ser prudentes. Por otro lado, tenemos la pregunta ¿existen suficientes datos labeleados, etiquetados? ¿Son de calidad estos datos? ¿Cuántos expertos se necesitan para hacer una base de datos como ImageNet? No tenemos turcos mecánicos de este así. No podemos hacerlo así. Además, el ground truth, el goal standard, el ground truth de medicina es muy complejo. Los casos que hemos visto antes, el goal standard estaba claro ¿por qué? Porque un melanoma tiene SLAP, la anatomía patológica que confirma que es un melanoma. Pero no porque sea el criterio general de los dermatólogos porque tendrá unos que dirán que sí y otros que no pero hasta que no lo ves en la anatomía patológica no sabes si es un melanoma, no lo confirmas. Luego, por otro lado, cuando coges real world data, real world evidence, lo que estás cogiendo son la información con la que se genera la práctica clínica y que habitualmente obedece a cuestiones, preguntas y respuestas. Por ejemplo, ha mejorado este paciente de la anemonía y a lo mejor escribe, bueno, pues ya casi no se percibe pero aún se ve una anemonía. Entonces, si tú entranos a un modelo en el que intentas ver pero decir anemonía, a lo mejor el infiltrado que queda es tanteno y tanteno, que realmente pues no es el caso ideal para... Y luego esto da o incluso, por ejemplo, el tener un marcapasos incorporado, pues eso es algo que no se va a reportar jamás en un informe porque es algo que ya se conoce y bueno, pues existe vallas que se han de reporting y la poca certeza del diagnóstico muchas veces porque existen diferentes criterios e incluso la medicina es un arte muchas veces. Todavía pues no existe esa certeza y luego pues la variabilidad entre los médicos. ¿Qué soluciones vemos? Pues hay soluciones. Pues luego explicar un proyecto en el que hemos utilizado una técnica de semi-supervised para el etiquetado a gran escala. Se puede utilizar también, por supuesto, tenemos las técnicas de tata augmentation y los modelos generativos para generar más datos etiquetados. También podemos ir para atrás y decir, bueno, pues no tenemos tantos casos que necesitamos machine learning tradicional que no necesitan tantos datos o técnicas de transfer learning o fine-tuning o entrenar modelos que estén hechos para predecir respecto a preguntas y respuestas en función de preguntas y respuestas. Y luego, importante también, ¿cuál es la sensibilidad que tenemos a estos modelos? ¿Cómo de sensibles son al impacto real que tienen en la práctica clínica? Porque los médicos suelen ir más hacia la cautela y prefieren equivocarse por cautela. Es decir, ante la duda de si algo puede ser maligno o benigno, prefieres pensar que es maligno para no cometer el error de un falso negativo, en este caso. Entonces, eso hay que habría que meterlo en la función de pérdidas. Es decir, no solamente la eficacia, pero también la eficiencia. Y además, incluir el coste clínico en el sentido de cuál es el riesgo, o sea, el daño que se genera de los diagnósticos que se pierden. O, por el contrario, puede ser el lado al contrario que se genere más daño por sobrediagnóstico. Por ejemplo, en cáncer de próstata con el PSEA, que a lo mejor no es un sobrediagnóstico. Otra solución para esto es definir una estrategia de interacción al médico. Es decir, sabemos cómo han fallado los sistemas de soporte al diagnóstico de hace unos años en los que enviaban muchísimas notificaciones a los médicos y ellos se saturaron. Y dijeron, esto ya ni le hago caso porque estoy aquí, no pueden atender al paciente. Entonces, hay que saber cuándo se informa. Hay que tener acciones que son relevantes. Por ejemplo, si un médico ha considerado que es un diagnóstico, la máquina no le va a decir, no lo consideres, a lo mejor callarse. Pero si la predicción es que sí que puede haber, pues sí que se le informa, por ejemplo, de una amorragia cerebral. Y, por supuesto, tener presente cuánto error podemos aceptar. Lo que tenemos es que los modelos de deep learning hoy por hoy como esos grandes modelos estadísticos, basados en regresiones lineales. Pero bien, no nos están dando los valores de confianza ni nos están dando los p-values, que son muy importantes para nosotros para saber cómo nos fiamos de esas predicciones. Por tanto, lo que es hoy en día, donde estamos, es human in the loop. Es decir, el médico tiene que estar supervisando y eso les va a ayudar, va a ayudar y está ayudando, pero siempre es supervisión, pensamiento crítico y ver cómo puede mejorar tu práctica clínica porque mejoran la... Y quizás probablemente existirán el a corto plazo modelos en los que se generen como modelos vallesianos o técnicas que se pueda generar los intervalos de confianza que tanto anhelamos los médicos. Y luego otro problema es si estos datos son realmente representativos o no. Pues realmente los pacientes es importante que estén representados y aquí la legislación creo que tiene un papel muy importante porque ya no solo es tanto preservar el derecho a la privacidad pero y el derecho a que tus datos sean entrenados en modelos para que esos modelos sean útiles para ti. Eso es un derecho y también la legislación para que los modelos de inteligencia artificial consideren todos los grupos de las poblaciones y no solamente los que tienen alto nivel adquisitivo o tienen mayor acceso a las últimas tendencias. Pues es algo que es para pensar. Por otro lado, las preocupaciones sobre la privacidad y los esfuerzos de identificación. Aquí creo que hay dos soluciones muy importantes. Una de ellas nosotros promovemos el Open Data. Nosotros en Valencia hemos publicado una base de datos ahora, un repositorio de imagen de radiografías de toras que está disponible a nivel mundial y es uno de los más grandes. Precisamente para poder entrenar modelos predictivos a partir de placas de toras creemos que Open Data es muy importante para poder avanzar la medicina y por otro lado también tenemos soluciones cuando los esfuerzos de desidentificación sean muy considerables. Tenemos también soluciones que están emergiendo como el Federated Learning que te permiten entrenar de manera distribuida los modelos y lo que se hace es que lo que se envían son solamente las activaciones y luego se hace la media arriba en el servidor y tú recibes las activaciones y vas algo que parece ser que puede ser una gran solución. Por otro lado, ¿cómo nos quedamos de contentos con las simple correlaciones que dan estos modelos estadísticos? Bueno, pues no mucho la verdad porque yo preferiría saber la causalidad. Es decir, para tratar los pacientes necesitamos medir el efecto de las intervenciones y es por eso que los ensayos clínicos no van a desaparecer como alguien abaticinado porque aún es muy importante la metodología entender que se necesitan ensayos intervencionistas randomizados, ensayos prospectivos, no solamente con datos retrospectivos, técnicas de stratificación y hay también modalidades muy prometedoras como es reemplazar los brazos placebo con el real world data. Y más allá yo lanzo esta pregunta para ¿cuándo será posible tener insílico trials? Eso sería fantástico, la industria farmacéutica estaría muy contenta. Nosotros también porque no tendríamos que estar, pero bueno, eso es muy futurista pero me gustaría pensar que eso se va a llegar en algún momento para hacer un ensayo clínico insílico. Y por otro lado los black box, los black box también los sufrimos nosotros y pensamos ¿cuáles son las características en las que se está fijando los modelos? ¿Cuál es la lógica para poder haber llegado a esas conclusiones? Bueno, pues también tenemos técnicas, cada vez un poquito más avanzada, la verdad que todavía hay mucho por hacer pero bueno tenemos los mapas de salience maps, los mapas de fiches de características que en imagen son muy buenos, de atención también, los mapas de atención y también el poder manejar, cambiar los inputs para saber cómo alteran el output. Bueno, pues aquí simplemente quería decir que esta es la realidad, la que estamos para poner y que bueno pues estamos ahora en los modelos insílicos que están entrenados de manera retrospectiva y validados de manera retrospectiva como los que hemos visto esos tres ejemplos. Que lo interesante sería el aprendizaje continuo y la validación en datos prospectivos y que un paso más allá cuando queramos tener device que entraña más riesgo que simple recomendación o sistemas de recomendación en el que se necesite menos human in the loop necesitamos hacer ensayos clínicos intermeccionistas y sobre todo estudiar primary points, objetivos que son realmente de interés para los pacientes, pues calidad de vida, mejorar variables pronósticas o bien mejorar procesos en la práctica clínica y no solamente lo que es la eficacia o la predicción y luego pues la FDA ya está empezando a hacer recomendaciones respecto a los medical device que incorporan inteligencia artificial y hay dos categorías que son software as medical device software in medical device. Ambos están sujetos a diferentes clasificaciones procedimientos para llegar a ser comercializados que es por un lado más sencillo en clearance que no necesita, no es tan costoso como conseguir una aprobación y está basado en cómo de explicables son los modelos, ojo, que si los fabricantes de device consiguen modelos cuanto más explicables menores barreras tendrán para poder comercializarlo y de hecho eso ya está contemplado por la FDA. Por supuesto el último paso es la integración en la práctica clínica y luego seguir haciendo de manera continua un on-goi monitor, o sea monitorizando, siempre monitorizar porque medicina todo cambia y no te puedes quedar como modelos antiguos y aquí es donde viene, es muy importante introducir el real world data, por eso aquí vemos cómo podría ser un loop en el cual una vez que introducimos el real world data volvemos a reentrenar los modelos y hacemos pues una transicción quizás menos costosa pero para conseguir y estar seguros de que tiene ese impacto beneficioso en la práctica y por supuesto también hemos visto casos de los que con modelos insílicos simplemente y validados retrospectivamente pueden ser comercializados pero aquí el human in loop es muy grande son sistemas no ni de recomendación sino de sugerencias pero desde luego la manera de conseguir que estos modelos cada vez tengan más valor pues es siguiendo estos pasos. Nosotros hemos trabajado con el MedBravo en los ensayos clínicos el sector de ensayos clínicos en cáncer y iniciamos nuestras andaduras haciendo una plataforma de acceso abierto en el cual queríamos aumentar la participación de los pacientes en los ensayos clínicos bueno, solamente menos del 5% de los pacientes participan y sin embargo es el motor y lo que ha conseguido los avances más importantes en la medicina los avances que van por el método científico que no están basados en hechos aislados o creencias la plataforma fue acogida con mucho interés por parte de los pacientes y teníamos un problema y es que los pacientes nos enviaban datos pero ellos no sabían muy bien qué datos enviar entonces necesitábamos tener involucrado a los médicos, a los oncólogos y fue por ello que participamos bueno, ganamos de manera sucesiva tres convocatorias en el FP7 antiguo que es el previo al horizonte 2020 en tres años consecutivos y pudimos hacer una plataforma para referir pacientes centros hospitales en España vimos que había mucho interés los oncólogos estaban muy implicados los pacientes también sin embargo el problema que tuvimos fue que no siempre había tantos ensayos clínicos o los hospitales para poder dar respuesta a perfiles muy concretos cada vez más guiados por la biología molecular aquí la inteligencia artificial como la implementamos nosotros ya desde el 2014 estábamos con técnicas de inteligencia artificial que en este caso era para técnicas de clusterin de clusterizado no supervisado porque lo que hacíamos era agregar toda esta información y poder ofrecer diferentes perfiles a los usuarios y clasificarla de una manera racional para poder presentarla en la web en un siguiente paso hemos estado trabajando en extraer conocimiento de los ensayos clínicos de cáncer para poder hacer representaciones para pensar el matching entre lo que es el protocolo de ensayo clínico con las historias clínicas de los pacientes aquí la experiencia ha sido muy buena también en este caso aquí las representaciones las modelos computacionales que tenemos hasta ahora han estado basados o al menos los que no son propietarios y realmente dicen lo que hacen en sistemas de expertos y en reglas que son muy rígidos y están basados en diccionarios y no pueden tener toda la representada información médica en toda la riqueza entonces nosotros lo que hicimos es experimentar con las técnicas de deep learning y el objetivo era clasificar si frases cortas con información clínica eran consideradas como criterios de elegibilidad o no elegibilidad por ejemplo si un paciente que tiene una enfermedad GER2 positiva y que había recibido y progresado dos líneas previas de tratamiento GER2 anti GER2 si era un criterio de inclusión o exclusión y la respuesta que el modelo tenía que arrojar es que sí para ello lo que hicimos fue descargamos todos los ensayos clínicos de cáncer en los últimos 18 años después de hacer tareas de preprocesado algo que me parece bastante interesante fue hacer una de manera no supervisada conseguir un labeling y es utilizar porque sabes cada criterio estaba etiquetado como elegible o no elegible entonces con ello puedes generar representaciones de lo que se consideran criterios de exclusión, criterios de inclusión etapa intermedia fue entrenar war embeddings y después comparamos diferentes arquitecturas basadas en matrimonio tradicional y también en redes convivionales el objetivo final era como comento predecir por ejemplo un paciente que tiene por ejemplo si tiene un paciente un cáncer de mama triple negativo si se le debe de tratar si es elegible o no para un ensayo clínico con pertuzo mábil después estaría que no aquí la experiencia con el war embedding fue muy buena porque no lo esperábamos pero bueno cuando veías que a lo mejor hacías una query para ultrasound veías como todos términos de radiografías de pruebas diagnósticas de imagen más cercanas a ecografías estaban todas agregadas también en el espacio cuando proyectábamos sarcoma por ejemplo en el espacio vectorial también veíamos que por ejemplo para sarcoma sin esperarlo a partir de estos protocolos había visto como todos los clases de sarcomas estaban también agrupaditas en el mismo espacio la verdad es que está aprendiendo aquí hasta los tumores las histologías desde diferentes aspectos está sacando información semántica también podíamos hacer entrenar modelos de camins con los clusters de war embedding y veíamos pues que sí que todas las localizaciones anatómicas de huesos estaban todas juntas o las imágenes de diagnósticas también juntas las enfermedades pulmonares también juntas o sea los receptivas las enfermedades restrictivas infisema bronchitis, bronquietasias pneumotoras problemas de adicción también todos juntos entonces hicimos un experimento también de ver si era capaz de racionamiento y analogías semánticas y la verdad que lo era y además de por ejemplo hacíamos una pregunta como si el tamus y fenos se utiliza para tratar el cáncer de mamá entonces ¿qué utilizarías para tratar un cáncer de prostata? pues aquí sale una lista de un ranking en el que primero se le ensaluta mida pasado de antiantrógenos pasando por abiraterona finasterida zoolodex y sorprendentemente todos estos fármacos pertenecen a la clase de fármacos hormónos que son para patologías hormono dependientes pero de una manera en la cual solamente se aplica al cáncer de prostata es muy interesante ver como simplemente el entrenamiento de Warren Beddings a partir de esa información de los ensayos clínicos aprendía las clases farmacológicas luego el clasificador aquí con una red convolutional sencilla la verdad no tenia ninguna hicimos pruebas con diferentes modelos y lo validamos también con 4 millones de frases con buenos resultados aquí están ejemplos de los resultados la patinita, treat, breast cancer with metastasis pertuzumab para tratar el cáncer de mamá con metastasis cerebrales la respuesta es que no porque el pertuzumab no atraviesa la barria mantossefálica aquí comparamos como se comportaba los diferentes modelos que tampoco voy a entrar por otro lado hemos trabajado también en imagen porque queremos pero en texto de lo que son los informes de las imágenes y aquí hemos publicado la base de datos más grande en términos de pacientes no en imágenes junto con el MIT Stanford publicamos la verdad es que el mismo día no se como pudo pasar aquí pero se alinearon los astros y publicamos el patchest en el mismo día que ellos y esta es una base de datos en la cual están las imágenes y se ha sacado todo el conocimiento posible de los informes que han hecho los radiólogos aquí me quedan solamente 6 minutos con lo cual voy a ir rápido voy a enseñaros lo que lo que hemos hecho aquí bueno aquí hay pacientes que están desde el 1904 que nacieron 1904 hasta el 2017 hay 66.000 pacientes pero de unas edades muy heterogéneas hemos incluido todos los tipos de todos los tipos de position views de por ejemplo poster anterior lateral, oblicua de las diferentes proyecciones que utilizan para las placas de turas y las que estaban indeterminadas porque en el daikon no estaba de información utilizábamos modelos para predecir aquí tenemos todas las proyecciones las diferentes proyecciones las medias y las varianzas es interesante verlo y lo que hicimos fue a partir de los informes extraer todas las etiquetas posibles todas, no restringirlo a unas pocas etiquetas como es el resto de base de datos y aquí vemos quería comentaros disculpar que me ha pasado muy rápido porque si no no da tiempo esto fue como entrenamos para el clasificador multilabel en total hay 193 tipos de etiquetas diferentes 113 de ellas son localizaciones anatómicas hay hasta 113 localizaciones anatómicas en el tórax y en total hay 27.000 diagnósticos diferentes etiquetados con lo cual, bueno y además están organizados en árboles jerárquicos que favorece la búsqueda para poder recuperar las imágenes por diagnósticos, por localización ángulos diferentes tipos y hemos tenido una búsqueda sorprendente, la verdad es que muchas empresas, yo diría que virtualmente casi todas las del sector de imagen médica, se han interesado y han pedido acceso a descarga y tanto empresas como de universidades y queremos que sirva también para incentivar que hacer OpenData es muy bueno para la comunidad científica y es lo que puede favorecer las imágenes. Por otro lado abre muchas puertas también para poder entrenar modelos que tengan mayor predicción a nivel de dónde están localizados cada una de las de los diagnósticos. Aquí hicimos, en este ejemplo vemos un clasificador de rame pleural con un área bajo la curva muy buena como veis aquí por ejemplo tenemos un rame pleural izquierdo costofrénico izquierdo y aquí se ve como el mapa de activaciones te dice exactamente dónde está porque tiene mucho potencial esa base de datos para poder entrenar. Luego estamos trabajando también en genómica queremos que aquí es interesantísimo que cuantas más personas se metan a trabajar en ese sector la medicina y la oncología dependen de ello en este experimento lo que hemos utilizado fue deep learning para partir de expresión de RNA predecir el tipo de tumor y vemos que en la matriz de confusión que no hay equivocaciones y las dos otras equivocaciones que hay son de tumores que tienen son muy parecidos por ejemplo cáncer de esofago y cáncer gástrico realmente cuando los miras con anatomía patológica son muy similares en este otro experimento también lo que hacemos es intentar como el código fuente no está publicado muchas veces cojamos un paper y intentamos replicarlo este era muy interesante porque era para ver los coeficientes de inhibición o de sensibilidad fármacos y predecirlos a partir de cuál es la inhibición o sensibilidad de las células sin vitro como nos interesa sino las células sin vitro sino los tumores de verdad lo que hicimos fue bajar el TCA el pan cáncer Atlas que tiene 9000 muestras y a partir de ahí hacer unas técnicas de transfer learning para que con unos autoencoders incorporados al predictor pudiéramos hacer un modelo que virtualmente pudiera aplicarse desde células haciendo transfer learning hasta el tumor primario los resultados preliminares son interesantes y ahí se ve el conjunto de validación que realmente aquí las listas de fármacos están en cada una de las filas y las muestras son las columnas y más o menos se parece mucho y el negro es sensibilidad fármaco y el más amarillo es resistencia basado en expresión de Renea y por último decir que estamos trabajando en la creación de un banco de datos para recoger de manera secuencial información genómica de transcriptómica, proteómica, metabolómica de anatomía patológica y del microbioma y de información clínica para que junto con lo que es la recolección de muestras de sangre que es lo que realmente tiene un gran potencial porque puedes tener una imagen desarrollar marcadores proyectivos de respuesta y de resistencia a fármacos de una manera dinámica teniendo visiones de cómo va evolucionando el paciente sin necesidad de estar haciendo biopsias es decir las muestras biológicas que se extraen de saliva o sudor o cualquier cosa siempre pasen mucho mejor que tener que estar haciendo biopsias y si de ahí puedes extraer marcadores proyectivos de respuesta pues va a tener una gran aplicación aquí la inteligencia artificial es esencial porque tenemos datos heterogéneos, multimodales y además son datos muy esparse esparse hay mucha dimensión por ejemplo hay 22.000 genes que expresan y por ejemplo el pan cáncer atlas que es la base de datos que tiene más casos en este caso con datos genómicos solamente tiene 9.000 casos de tumores es decir tenemos más dimensiones que casos es interesante que haya más investigación en este sector y es lo que estamos ahora trabajando en ello para poder desarrollar métodos de diagnóstico temprano, de recaída de progresión y monetizar la sensibilidad y la resistencia a los fármacos y muchas gracias por vuestra atención y si tenéis alguna pregunta alguien Hola, vale agradecerte la valentía de venir aquí a hablarnos de biomedicina a un montón de computer scientists no sé cuántos soy expertos en biomedicina, alguna mano no, bueno yo sí también soy el principal trainer de producto de Estratio que explica un poco cómo funcionamos en la plataforma para desplegar inteligencia artificial o sea que soy varias cosas pero me interesaba obviamente preguntarte a ti y agradecerte que estés aquí mira ayer tuve la suerte de acompañar a la principal speaker de esta conferencia que es el de Data Science que era casi co-cir-cov y mientras la llevé las maletas al taxi le pregunté un poco cómo los científicos podríamos aprender de estas herramientas que son los modelos de Machine Learning no sólo que ellos aprendan y se conviertan en una herramienta para nosotros para poder responder preguntas sino también de esa herramienta ya preparada para que podamos aprender nosotros del problema para expresarlo desde el punto de vista científico a los demás, pues hemos aprendido que cuando pasa esto suceden estas cosas y si podríamos sacar cierta información de los modelos de Machine Learning que son tan oscuros y tan especiales a veces y ella me comentó me dijo lo primero, you are a Evil Data Scientists eres un científico malvado de estos que yo he venido a hablar que hay que asegurar las sencillas pero sí que me dijo y te he oído a ti hablar de algo parecido me dijo que es interesante tener un modelo y ver la activación vale, entonces como yo personalmente la verdad no entendí muy bien eso pero creo que has comentado tu algo si no lo puedes explicar un poquito a nivel de ver la activación que se está activando en el modelo y que sacamos de todo esto pues muchas gracias por la pregunta nada es muy interesante es que por ahí va los tiros la explicabilidad, la interpretabilidad de los modelos pues bueno, lo más obvio es hacerlo en imagen con las redes convolucionales por poner un ejemplo, tú tienes muchas capas y lo que te interesa saber es qué características son las que han hecho que al final el modelo diga una cosa otra, lo que haces ahí es una disección o surgery de las capas y coges habitualmente las penúltimas o la última y las proyectas de nuevo en lo que es la imagen y las proyectas, las activaciones las que son más sobresalientes entonces como tiene una distribución espacial lo que haces es que la última capa la proyecto es en la misma distribución espacial de píxeles y hay proyectas las activaciones, hay varias técnicas las que puedes utilizar y en imagen es lo más agradecido porque realmente lo ves y la superpones con el input superpones el input que has metido y luego la imagen de las activaciones las que se resaltan las que son más sobresalientes en texto podemos hacer lo mismo con los mecanismos de atención en los que tú puedes ver dónde se ha fijado el modelo en las frases por ejemplo que hay un texto grande si por saber qué keywords han detonado que esto llegase a conclusión con mecanismos de atención se puede hacer también y bueno pues aquí es muy interesante que esto se investigue más y que cada vez sea más explicable los modelos hay alguna pregunta más lo primero gracias porque me ha interesado mucho la charla especialmente porque yo estoy trabajando como responsable de Machine Learning en Sigesa que es una empresa que trabaja en el mundo médico y sí que comparto esta visión que has dicho tú que tenemos que acabar con esta ecotomía médico versus ordenador y la idea es médicos trabajando con ordenadores en otros ámbitos trabajan por sí solo los modelos de Machine Learning pero en medicina es un campo muy crítico y no estamos ahí, estoy de acuerdo pero sí que quería hacer un comentario por ver cómo lo ves tú que es que creo que a veces desde el mundo del especialista médico se cae en lo contrario porque es muy intensivo a utilizar estas tecnologías y es verdad que hay dificultades concretas en el mundo médico pero que tienen solución como has dicho tú, muchas de ellas se pueden jugar con las métricas hay mucha investigación para extraer interpretabilidad de los modelos todo este tipo de cosas son solucionables solo que es verdad que hay que tenerlas en cuenta y creo que no hay que caer en lo contrario ni caer en lo que dice Andrew Ng porque no se pueden utilizar porque el mundo médico es muy particular que intentar encontrar este equilibrio entre las dos cosas no sé cómo lo ves tú Sí, yo comparto totalmente tu opinión y por eso me ha gustado que lo realces porque yo de verdad en el 2017 es que la reacción fue se aparecía como que ya iban a desaparecer los médicos y entonces eso genera un antagonismo entre sectores de necesidad hay que adaptar y mejorarla con estas herramientas que va a mejorar nuestra cognición clínica y lo que se ha visto es que esas predicciones no se han cumplido de Andrew Ng o de Joffrey Hinton el médico lo que va a hacer es mejor su medicina y relegar las actividades mecánicas o cuando no puede acaparar tanta información pues eso para dejarlo parar las máquinas pero el juicio clínico y el estar, acompañar al paciente y la calidad de vida y todo esto es algo que no se puede dejar una máquina o sea, es una y en mi sector no hay esa no se percibe ahora ese miedo se está viendo al potencial y por eso he puesto ese ejemplo de los que tienen más impacto cada vez hay más publicaciones de inteligencia artificial a nivel de médicos no hay ese miedo, no se ve de una manera más racional sabemos que no es un cíborg que va a venir y se va a poner por lo menos por ahora no yo creo que lo hubo en su momento precisamente por lo que hice estuvo una reacción defensiva hace un par de años y se está empezando a romper vamos por ahí todos a trabajar juntos gracias por la pregunta hay alguna más o? hola qué tal muchas gracias por la presentación quería preguntarle el tema regular oatorio haciendo una caballencia con los fármacos para poner estos sistemas en producción realmente en un hospital va a tener que ser necesario que pase tanto tiempo para validar el sistema para que pueda tomar decisiones de hecho hay un la FDA ha hecho un programa de revisión pre marketing en el que lo que se intenta es que se acompañe al desarrollo del device mientras antes de que se vaya a conseguir la aprobación lo que se pretende es agilizar esos tiempos y se clasifica, lo primero que se hace es clasificarlo en riesgos hay por ejemplo se clasifica de uno en la FDA hay tres niveles el uno es el de menos riesgo para paciente y el tres de actividades más críticas que serían por ejemplo cuando es una acción inmediata que tiene que afecta al tratamiento de un paciente y el uno en contraposición es cuando pues es un sistema de información o de sugerencia y en dos se clasifica más o menos ese intermedio todos los ejemplos que tenemos ahora que han conseguido la aprobación o comercialización son nivel uno y dos de los que están basados en inteligencia artificial son la mayoría y estos como he comentado estas fases desde que están los modelos enrenados insílico hasta que muchos de ellos no han pasado un ensayo clínico como en los fármacos que es la pregunta que me comentabas porque no es para tratamiento sino para apoyo al diagnóstico la mayoría de ellos pero que sí que es cierto que cuando si hay algo que va que pueda ser como un concepto de fármaco o algo así no se me ocurre en este momento pero sí que tendría que pasar por un ensayo clínico randomizado con datos prospectivos hasta ahora los datos que se han utilizado la mayoría de ellos excepto en el caso de la retinopatía diabética que hay una herramienta muy buena que es para diagnóstico precoz de retinopatía diabética esto sí que se hizo con datos prospectivos, la validación pero incluso en otros casos se ha hecho con datos retrospectivos pero depende del riesgo es más rápido la aprobación para ayuda al diagnóstico y informativos que cuando realmente son aspectos más críticos del ejercicio que ya necesita ir por la vía de ensayo clínico y por hoy no ha desaparecido y cuando toque hacerlo hay que hacerlo nada así no hay ninguna pregunta más muchas gracias