 Hola. Esto funciona. Bien. Va, más o menos. Ah. Todavía guardamos un minutito más si sea el horario, por si alguien está un poco demorado. Bueno, si quieren, comenzamos. Hola. Bueno, muchas gracias. Mi nombre es Sabrina. Gracias a todos por venir, en particular a mis amigos. Y lo que les quería contar hoy, en particular, en nuestra experiencia en el proyecto RFI, trabajando con datos de salud y las particularidades que tienen este tipo de datos. Entonces, pensemos en cualquier situación en la que hayamos ido al médico, al hospital, y hayamos consultado porque tenemos fiebre, nos duele la panza, tenemos la presión arterial alta, o simplemente nos tocaba un control de salud. Hola. Perdón, no tengo muy bien el uso del micrófono. Cada vez más, estos registros que hacen las personas que nos atienden los médicos, las enfermeras, quedan registrados electrónicamente, ¿sí? Es lo que se llama historia clínica. Cada vez más, es electrónica. Y esa nueva modalidad de registro hace que esos datos, en principio, una cuchillera que están más disponibles y son más fáciles de procesar y analizar para sacar distintas conclusiones. Entonces, a partir de, por ejemplo, de lo que anota quien nos atiende, podríamos detectar fotos e focos epidémicos, ¿sí? Si en una misma zona de repente aparece una población con mucha fiebre, muchos otros síntomas relacionados con algún tipo de virus, el dolor de estómago se podría relacionar o los problemas de ese estilo podrían relacionarse con, por ejemplo, que haya personas tomando agua de fuentes contaminadas. También podemos hacer bilancia de las enfermedades crónicas no transmisibles y eso nos permite organizar mejor los esfuerzos de prevención sobre esas enfermedades. Controles de salud o cualquier dato que tenga que ver más con el uso del sistema de salud nos permite organizar los recursos que, obviamente, siempre son limitados. Ese valor que tienen estos datos con los ejemplos que les fui dando no se concentra en una sola parte de la sociedad. Tenemos obviamente la gestión de esos datos por parte del gobierno y de otros, o sea, como puede ser un privado en el centro de salud que tiene que organizar sus recursos. La investigación y desarrollo tanto por del parte de la academia como de la industria y principalmente la información pública, así los ciudadanos como principales interesados en la información que se recupera a partir de los datos que en las consultas que hacen en el médico van dejando, podríamos decir, pasivamente. Entonces, para entender un poco cuáles son los desafíos de cualquier proyecto relacionado con los datos de salud, quería comentarles cómo es el ciclo de datos. En particular, de salud en el uso secundario, porque uno podría tener datos de salud que provienen, por ejemplo, de un caso clínico donde todo está muy controlado, donde hay preguntas que nos hacen los médicos, porque tienen un objetivo concreto de testear algo en particular. Acá estamos hablando de una comunidad de la cual una parte de esa comunidad accede al sistema de salud, tengamos en cuenta que en Argentina, aunque tenemos un sistema de salud público, no toda la comunidad puede acceder por distintos determinantes, y parte de esas personas que sí acceden a algún hospital o una salita de atención, no todas se convierten usuarios de la parte electrónica del sistema, porque no hay historias clínicas electrónicas o sistemas de información en todos los centros de salud. Y aquellos que los tienen no necesariamente dialogan entre sí, no son interoperables. Entonces, acá ya tenemos un primer sesgo que tiene que ver con qué población accede y otro segundo sesgo que tiene que ver en cómo están fragmentados los datos de quienes sí acceden en distintas partes del sistema. Después, tenemos el registro. El registro, como les decía, puede venir por, se dejó escuchando. Ah, perdón. El registro, como les decía, puede venir de una enfermera, un médico, una médica, o también de persona al administrativo, que, por ejemplo, nos pregunta cuando entramos a la guardia, ¿por qué estamos yendo a la guardia? Y eso hace a la calidad del dato, ¿qué es lo que queda registrado? ¿El que lo registra tiene claro lo que está registrando o es solo un intermediario más? Y también tener en cuenta que este registro es subjetivo, porque el médico está o la médica está anotando en esa historia, porque primero tiene una obligación legal de hacerlo y, segundo, porque es una herramienta para darnos una mejor atención. En ningún momento está registrando pensando en que después va a venir alguno de nosotros interesados en usar esos datos y sacar alguna conclusión. Entonces, ahí hay mucho uso de siglas y de cosas que sirven al profesional y a sus compañeros, pero no necesariamente a nuestros objetivos secundarios. Luego tenemos las bases de datos que pueden estar mejor o peor mantenidas y tienen personas encargadas de resguardarlas, de procesarlas y de que a partir de esos datos se pueda obtener información para construir el conocimiento y que ello lleve a políticas públicas que vuelvan a la comunidad que, recuerden, no era toda la comunidad que había accedido en primer lugar. Entonces, esto hace que para que podamos llegar a este punto responsablemente tenemos que tener en cuenta todo lo que le pasó a esos datos para que nosotros tomáramos alguna decisión. Y, además, como si fuera poco, tenemos que tener en cuenta que salud están protegidas legalmente. Y esa protección a partir de leyes y normativas es muy difusa, es muy ambigua y se superpone entre niveles internacionales, nacionales y provinciales. Y cuando digo que es ambigua, no es que uno puede hacer cualquier cosa con eso, pero sí que es ambigua, por ejemplo, la terminología que usan. Entonces, por ejemplo, dice que yo puedo utilizar datos de personas mientras estén anonimizados. La anonimización total es imposible, pero lo que dicen es que tiene que haber recursos, tiene que haber un recurso proporcional para tratar de reidentificarlos. Entonces, si yo pongo una computadora a 6,000 años y logro reidentificar a las personas que estaban en esos registros, claramente es desproporcionado y podríamos haberlos considerado anónimos en primer lugar. Pero quizás esa variable de recurso es distinta de acuerdo si estoy en un país de la región o si estoy en el norte global y qué recursos tengo disponibles y qué herramientas tengo disponibles. Entonces, tampoco es muy claro en este sentido qué podemos hacer. Y muchas veces los proyectos de salud tienen problemas, entonces, para compartir sus datos, para sacar conclusiones en conjunto, porque están limitados y, obviamente, lo más responsable es no accionar si no estoy seguro de lo que puedo hacer. Entonces, ¿cómo desarrollamos estos proyectos que tienen estas dificultades teniendo en cuenta que son datos de uso secundario de datos de salud? Y lo que les quería traer es cómo hicimos en ARFAI. Es una posible aproximación. ARFAI es un proyecto de gestión epidemiológica que se basa en inteligencia artificial y ciencia de datos para poder desarrollar distintas herramientas para la salud pública. Tiene dos componentes, una de implementación del cual no voy a hablar, pero que consistía en ciertas ciudades y ciertos centros de salud implementar la historia clínica electrónica para poder empezar a capturar datos. Y el proyecto del cual yo forme parte es orientado a la investigación donde teníamos distintos objetivos como desarrollar tableros o modelos predictivos de COVID para poder calcular cantidad de casos que iba a haber en un cierto día. Pero en particular, yo participé de la línea de uso responsable de datos que es una línea emergente. No estaba planteada al inicio del diseño del proyecto y que nos dimos cuenta de que surgió como una necesidad en relación a tener en cuenta todas estas dificultades o desafíos que presenta el trabajo con este tipo de datos. Y estaba orientado muy hacia el interior del proyecto al principio, pero rápidamente nos dimos cuenta que era muy interesante tener otros interlocutores y plantear que las mismas dudas que teníamos y para las cuales por ahí no teníamos respuesta, compartirlas para pensar respuestas en conjunto. Entonces acá trae algunas de las cosas que hicimos. Estamos orientados, como les decía, no solo hacia el interior del proyecto y los grupos de investigación que lo conforman, sino a ciudadanos, los centros de salud, el gobierno en particular, el de Argentina, digamos, pero tenemos en cuenta que si queremos avanzar en la región tenemos que poder dialogar con cualquier tipo de organización gubernamental y la investigación ya sea que provenga de la academia o de la iniciativa privada. Planteamos ciertos documentos donde lo que queremos hacer es problematizar qué pasa si usan mis datos de salud, qué pasa si se expone algún dato de salud. Tengamos en cuenta que actualmente podríamos con la facilidad con la que se comparten los datos perder una oportunidad de trabajo o de acceder a un crédito de acuerdo a la información que tengan sobre nuestra salud, que es un dato sensible justamente porque puede hacer que haya un impacto en la vida de las personas que se conozca. También una guía práctica para la protección de datos personales en salud, eso ya más orientado a quienes usan esos datos de salud y lo procesan para poder darles herramientas porque la ley, por ejemplo, o las leyes en general, hablan de hacer un uso adecuado de los datos, anonimizándolos y nuevamente nos dice cómo, y es muy fácil decir así esto, pero no decirme cómo, ni tampoco ofrecer los recursos para poder hacerlo. Entonces, en ese esfuerzo planteamos una serie de estrategias que se pueden plantear para que esos datos puedan ser utilizados con mayor seguridad. A partir de desarrollo de un pipeline de anonimización, del texto libre de atención de salud, que parece como algo muy rimbombante, pero es básicamente lo que escribe quién nos atiende cuando nos atiende. Porque aunque uno pudiera creer que contiene muchos datos personales nuestros, haciendo ese trabajo pudimos participar de la consulta pública sobre la ley de protección de datos personales que ocurrió el año pasado, donde participamos como interesados en exponer nuestros aprendizajes para que los tuvieran en cuenta a la hora de actualizar la ley de datos personales. Y en particular en relación al pipeline de anonimización de texto libre, lo que nos encontramos que a partir de los registros que tenemos de salud de la historia de atención primaria de la provincia de La Rioja, desarrollamos esta herramienta que nos permiten mascarar ciertos datos que permiten identificar a las personas a partir de esos textos. Pero el problema es que no tenemos cómo evaluar cómo funciona porque no tenemos acceso a otros datos de salud nuevamente por lo que les comentaba de la privacidad. Entonces, a partir de eso, se nos ocurrió que podíamos organizar un evento, le pusimos anonimitaton, que por ahí no es muy catchy porque es medio trabalenguas. Pero la idea es poder testear ese pipeline por nuevos usuarios en sus propios entornos. Porque justamente como compartir datos es difícil, no podemos evaluar fácilmente, contar con benchmarks así muy rápidamente. Entonces es al menos que cada uno pueda correr ese pipeline, ver cómo performan sus propios datos. Y a partir de eso, plantear un desarrollo colaborativo, plantear esto que por ahí dentro de los datos de La Rioja no era necesario implementar por ahí en otra ciudad, es importante que lo hagamos. Y pensando en desarrollo colaborativo, en testeo conjunto, dijimos, ¿por qué no que esto trascienda a la organización de este evento? Y no hagamos en realidad una comunidad que más allá de este tema particular, de eliminar la información identificatoria de las historias clínicas, planté todas las dificultades que tiene trabajar con estos datos para que podamos resolvirlos en principio en la región, pero globalmente también, teniendo en cuenta nuestras propias particularidades, de forma colaborativa nuevamente y en comunidad, porque compartimos los mismos problemas. Entonces, para eso, es que, si bien el financiamiento original de ARFAI terminó, estamos buscando nuevos financiamientos para poder sostener, como vimos en la quino, de la oración más temprano la necesidad de pensar en las comunidades desde el inicio con un sostenimiento planificado. Y quería compartir, hablo en plural porque, en realidad, yo estoy representando todo el proyecto, quería compartirles algunos de los apretajes que tuvimos al trabajar con este tipo de datos. Uno de ellos es que detrás de los datos hay personas con derechos y las decisiones que tomamos tensionan esos derechos. Los derechos no son absolutos, se sospisan entre ellos y no es inocente la decisión que tomemos. Los contextos y las condiciones en las que se desarrollan las tecnologías importan, no es lo mismo importar algo hecho en otra zona del mundo, tenemos que adaptarlo a nuestra realidad, darle la localidad que requiere. La elección de las técnicas y de las tecnologías no da lo mismo. Siempre ante dos sistemas es mejor el que sea auditable, el que yo pueda controlar, el que sea más seguro. Los riesgos existen y hay que conocerlos y darse cuenta que tienen impacto sobre las personas, no son triviales y hay que responsabilizarse por ellos, entonces, de vuelta teniendo en cuenta el principio de precautorio. Si tengo dudas de lo que yo voy a hacer, puede arruinar la vida de una persona, entonces es mejor no hacerlo, no porque sea ciencia, no tiene impacto sobre las personas porque todos somos buenos y no existe la controversia. Y la dimensión ética y del cuidado demanda tiempo y recursos, entonces, así como nosotros que hacer esta línea emergente por la problemática que nos fuimos encontrando, que los próximos proyectos u otros proyectos que quieran trabajar con estos datos lo tengan en cuenta desde el principio y planifiquen y asignan recursos desde el comienzo a este tipo de equipos de trabajo dentro de los proyectos. Y más en concreto, volviendo a nuestra pregunta original, que era cómo desarrollar proyectos basados en el uso secundario de datos de salud, quiero plantearles una serie de respuestas mucho más concisas que lo que discutí anteriormente, que es basarse en el trabajo interdisciplinario, porque cada disciplina pueda aportar una nueva perspectiva al mismo problema. El principio precautorio y la evaluación de impacto, esto que yo decía de antes de ponerme a escribir una línea de código, tener en cuenta a dónde puedes llevar esa línea de código y si estoy dispuesto y tengo cómo justificar el riesgo que puede implicar para la vida de las personas que yo desarrolla este código. Las estrategias de anonimización, que es algo difícil, que no hay muchos recursos en español, pero cada vez esto crece más, cada vez tenemos datos más disponibles y necesitamos hacernos de esos recursos para poder trabajarlos seguramente y por sobre todo la sensibilización y participación ciudadana, salir de ese paradigma de la torre de marfil o de cristal del material que prefieran donde se cree que está la ciencia y ver qué quiere la sociedad respecto a estas cuestiones, porque nosotros somos parte de la sociedad, no estamos por fuera de ella. Eso es todo. Muchas gracias. Muchísimas gracias, Sabrina. Ya abrimos un espacio para dos preguntas o tres preguntitas que tengan aquí. Gracias por compartir, Sabrina. Mencionaste que la anonimización total no existe y después al final mencionaste algo de estrategias de anonimización. Si podrías compartir un poco más de por qué no existe y cuáles son las estrategias que ustedes implementar o no piensan implementar. Bueno, es una muy buena pregunta. Elegí esta palabra porque para el tiempo de la charla era más fácil, pero digamos la anonimización como concepto implica que esos datos que yo anonimicé nunca más van a poder permitir identificar a las personas. Y eso en la práctica, al momento, y no sé si no quiero hacer futurología, pero al momento es imposible. Lo que es la expresión que se utiliza es de identificar. Yo elimine ciertos identificadores, no me puedo asegurar de haberlos eliminado todos. Pero para no mezclar los conceptos, al final debería haber dicho estrategia de identificación, pero iba a tener que explicar ahí lo que era y prefería por ahí que tuviéramos este momento para discutirlo. Tiene que ver más con algo conceptual de cómo está el estado del arte hasta el momento y tener en cuenta que parte de uno de los aprendizajes que tuvimos en Arfi al poner a personas, a anotar tech, o sea, pusimos anotadores que tenían que en el texto identificar qué datos podían eventualmente permitir que alguien pudiera saber de quién trataba ese texto. Y esos anotadores no estaban de acuerdo. Entonces, si los humanos no nos podemos poner de acuerdo, probablemente las máquinas que entrenemos a partir de lo que decidieron los humanos tampoco puedan. Así que es un problema abierto. Es justo siguiendo esa misma línea. Pensándolo, desde una mirada de John Snow, yo me imaginaba cómo, o sea, el tema de las direcciones, como me parece central, sigo queriendo estudiar un brote epidemiológico, etcétera, cómo podés que se use esa información, porque yo escucho a veces lo de epidemiología diciendo en tal barrio, no decimos cuál, pero hay más casas y cosas así. ¿Cómo es el manejo, o sea, si es con capas ciertos que puedan verlo, ciertas cosas que no? Un poquitito más sobre eso. Gracias. En realidad, lo que tiene que ver con la gestión epidemiológica por parte, digamos, de los gobiernos por ley, ellos están permitidos, ¿sí? Por cuestiones, por ejemplo, como la pandemia de COVID, lo que está pasando ahora con el dengue, hay ciertos usos de los datos anteriores que están habilitados. Eso es lo que tiene que ver con la gestión de salud, como bien público, digamos. Aun así, después cada institución podrá decir qué nivel de detalle le da a esos mapas, por ejemplo. Si uno puede agregar zonas, entonces, identificar un barrio, pero no necesariamente la calle y la altura donde vive la persona que tiene alguna enfermedad, que es lo que estamos hablando en este caso. Y después hay técnicas de anonimización, hablando mal y pronto, específicas para datos geográficos. O sea, yo me senté acá en lo que tiene que ver con texto libre, que es lo que trabajo yo, pero en realidad hay datos de salud en distintas modalidades, ¿sí? Como puede ser las imágenes, los rayos X, las resonancias magnéticas. Y todos tienen un grado potencial de identificación y todos tienen alguna estrategia para dificultar eso. Las direcciones, lo más sencillo, tiene que ver con poner algún tipo de disturbio y que esté un poco corrida o agregada para poder armar estos mapas y que darlos a conocer a las ciudadanías sin que vayan a aprender de fuego la casa a alguien por miedo, ¿no? ¿Qué puede pasar? Tenemos un momento para una pregunta más. No sé si alguien quiere tomar la palabra y aprovechar tan interesante conversación. Si no, los invitamos a pasar al break. Bueno, muchísimas gracias. Gracias.