 questa è la nostra seconda tavola rotto da in cui inizio già a in atrodurve parleremo di come analizzare i metodi e comprendere i dati soprattutto nel campo della sanità però poi allargando anche l'argomento più agli aspetti più alla società nel suo complesso e agli aspetti sociali faremo eccoci porteremo avanti questo secondo nostro panel in compagnia di francesca jeva professore associato di statistica presso il Dipartimento di matematica del Politecnico di Milano ecco direttore del centro di health data science qui a human technopol con marco deramo giornalista e sociologo collaboratore di the new left review e micro mega l'ultimo libro è dominio la guerra invisibile dei potenti contro i suditi edito da feltrinelli e con federico nati astro fisico sperimentale professore associato all'università di milano bicocca dove insegna experimental cosmologi appunto oggi parleremo proprio di questo tema di questo tema gigante che sta veramente avuto negli ultimi direi soprattutto dieci anni un impatto enorme sulla nostra società che è quello dei big data dell'utilizzo dei dati di quali sono le applicazioni pratiche che che hanno avuto quindi per iniziare io partirei con con con te con francesca jeva per chiederti un po di farci una po una panoramica una panoramica introduttiva giusto per entrare un po nell'argomento nell'argomento su quello che secondo te in campo medico però non solo sono gli ambiti più importanti e gli utilizzi più possono essere anche aiutarci anche a comprendere meglio come funziona questo mondo dei dati dei big data funziona sì che mi sono beh compito graffoso la prima domanda la prima domanda è sempre quello non va bene poi non vi faccio in un modo sensato allora il tema potrebbe portarci a discutere per ore ed è una cosa che voglio evitare di fare secondo me ci sono alcuni aspetti che è importante tenere presenti per affrontare un discorso di questo tipo in primo luogo che ci sono due approzzi con cui guardare il problema una quello tecnologico cioè oggi parliamo di dati perché ovunque si raccolgono dati chiunque raccoglie dati per motivi diversi scopi diversi con metodologie diversi differenti eccetera e quindi c'è un problema una questione tecnologica che come li raccogliamo perché ovviamente non tutti i modi per raccoglierli rendono i dati omogenei e come la tecnologia deve agire in modo da rendere i dati che raccogliamo in qualunque forma poi fruibili per un'elaborazione quindi un primo grosso tema è quello tecnologico perché c'è un primo grosso statement che è quello per cui qualunque dato anche i più belli ricchi complessi eccetera non parlano da soli dati quindi è necessario elaborarli ma per elaborarli dobbiamo poter accedere ai dati quindi c'è una prima questione che apre a tutto il mondo di come si fa ad accedere ai dati come ci vi si accede in sicurezza eccetera eccetera ma poi dobbiamo poterli raccogliere e mettere a disposizione in un modo veramente fruibile quindi questo è un primo grosso tema un secondo tema è oggi dati sono ovunque a differenza di 30 anni fa 20 anni fa dove l'attenzione era nel disegno dell'esperimento perché i dati raccoglieranno pochi e quindi ci si concentrava molto su come raccoglierli per rispondere alle domande oggi siamo sommersi di dati quindi il problema è cambiato radicalmente come navighiamo in mezzo all'informazione che c'è in queste montagne di dati che ci sommergono e come riusciamo a estrarre informazione e a comprendere il messaggio che viene qui c'è un secondo grosso tema che è quello di come li elaboriamo in modo da estrarre informazione utile utile cosa significa vuol dire informazione che possa supportare decisioni ok e quindi concorrere al processo decisionali in uno in uno qualsiasi degli ambiti che tu menzionavi prima chiaramente nella salute questo tema è particolarmente evidente perché supportare una decisione vuol dire supportare il clinico che deve decidere della terapia di un paziente in un modo personalizzato o supportare un decisore che deve decidere come regolamentare una fruizione di sanità in qualche forma e a questo si somma poi una grossa questione che è quella di come rendere disponibili dati perché la ricerca ha estremamente bisogno di dati per poter essere come diceva la collega prima utile per la società e per gli individui ma al tempo stesso ovviamente accanto ad una questione che è quella di come tu te li amo un tipo di informazione che è sicuramente molto più delicata e sensibile da un punto di vista etico ma non solo rispetto ad altri dati che è molto più diciamo alla leggera mettiamo a disposizione quindi io direi che diciamo per orientarci un attimo nella discussione questi segnalerei come diciamo main driver per seguire la discussione perfetto grazie e proseguendo Federico qui abbiamo parlato appunto di come certo il tema sia quello della produzione ma ancora di più poi il tema diventa quello dell'analisi dell'interpretazione dell'utilizzo dei dati ecco parte del tuo lavoro è molto esemplificativo da questo punto di vista perché parte del tuo lavoro riguarda l'analisi di dati sull'origine del cosmo quindi difficile trovare qualcuno che meglio di te abbia presente questa divergenza tra la raccolta dei dati e poi capire che cosa farne si si allora io tecnicamente sarei un cosmologo in realtà sono diciamo in senso lato un astrofisico il cosmologo è un tipo di astrofisico e la domanda riguarda in particolare i dati che vengono prodotti dai sperimenti l'astrofisico il cosmologo ma in realtà qualsiasi scienziato raccoglie dei dati e la cosmologia nell'ultimo secolo è diventata una scienza sperimentale sperimentale vuol dire che utilizza il metodo sperimentale però il metodo sperimentale è una parola che più o meno tutti pensiamo di conoscere ma che è cambiata cambia è cambiata nel tempo ed è cambiata proprio anche in funzione di quello che che dicevi tu un attimo fa cioè la quantità di dati che noi abbiamo a disposizione è enorme ora io mi occupo del cosmo dell'universo esso magari dico anche due parole cosa significa questa cosa che ho appena detto però in generale noi dobbiamo estrarre delle informazioni cioè dobbiamo rispondere delle domande il caso del cosmo potrebbe essere quanto è grande quantità all'universo questa è una domanda molto semplice che si aspetterebbe come risposta un semplice numero però questo semplice numero e questa domanda e questa risposta e tutte le implicazioni che ne consiglano da dove viene viene dal fatto che c'è qualcuno che immagina di costruire un esperimento immagina come questo esperimento trasforma la natura il mondo i fenomeni le informazioni che questi fenomeni ci inviano in dati cioè in numeri cioè io devo trasformare nel mio caso il cielo in un file su un hard disk accordo devo trasformare non so se fossi un chimico il risultato di un esperimento chimico in un'informazione rappresentabile in un grafico o rappresentabile in una mappa tutta questa operazione richiede una conoscenza molto molto attenta dell'esperimento che io costruisco perché anche se lo costruito io non significa necessariamente che comprenda come questo funzioni e poi devo capire questa enorme quantità di dati che raccolgo perché appunto alla tecnologia oggi ci dà la possibilità di immagazzinarne una quantità presto che è infinita cioè non è infinita naturalmente abbiamo i nostri vinculi e tutto quanto però di fatto rispetto a 20 30 anni fa non c'è paragono quindi noi navighiamo galleggiamo su questa enorme mole di informazione dobbiamo estrarre la risposta quanta è grande l'universo che da di cosa è fatto o che ne so come sicura un tumore o l'andamento delle azioni in borsa che ne so allora per far questo e qui ci sono per sure sicuramente più qualificate nel parlare di quello che sto a perdire però si utilizza fondamentalmente la statistica cioè si utilizza una cosa che cerca di trasformare qualcosa che non parla come diceva prima come diceva prima non i dati da soli non parlano dobbiamo interpretarli la interpretazione tu mi chiedevi cosa significa interpretare i dati e che cosa significa oggi utilizzare il metodo scientifico per interpretare i dati allora in generale uno scienziato cosa fa cerca di costruire della conoscenza quando noi diciamo che costruiamo conoscenza che cosa intendiamo dire intendiamo dire che noi aggiorniamo lo stato il nostro stato di informazione rispetto a un certo argomento d'accordo io adesso non so se fuori sta piovendo sono in un stato di incertezza su questo fatto però se mi affaccio alla finestra aggiorno il mio stato ho fatto un'asservazione ho aggiornato l'informazione si sta piovendo non lo sta piovendo e poi la posso anche raffinare nel senso affinare potrei dire si sta piovendo tanto poco eccetera o misurare esattamente quante goccia al secondo caso e così via e poi interrogarmi sulle cause sta piovendo tanto perché per come eccetera allora è la statistica in qualche maniera formula e determina e quantifica l'informatica tutta la scienza informatica e la teoria dell'informazione più specificamente quantificano l'informazione che posso raccogliere spiegano come raccoglierla e spiegano come aggiornarla e adesso potrei forse mi devo anche concentrare la risposta però per voler rispondere alla tua domanda sull'interpretazione quando diciamo interpretare noi in realtà diciamo in diciamo dovremmo dire meglio che aggiorniamo la nostra informazione e per farlo abbiamo necessità di due cose dobbiamo sapere quello che i dati ci dicono ma dobbiamo anche sapere quello che noi già sappiamo dall'unione di queste due cose possiamo aggiornare l'informazione possiamo costruire della conoscenza per sapere quello che ci dicono i dati dobbiamo conoscere come fatto l'esperimento dobbiamo sapere qualcosa riguardo a modo in cui questi dati vengono raccolti però dobbiamo avere anche molto chiaro quello che noi già sappiamo quello che in gergo statistico si chiamano le prioro quello che in senso filosofico sono le conoscenze a priori questa parte ci consente di stabilire una cosa estremamente importante forse ancora più importante della probabilità relativa ai dati ed è la probabilità cosiddetta delle cause cioè io interpreto i dati dando delle cause perché vedo mi aspetto di vedere quali sono le possibili spiegazioni che causano la mia raccolta dati perché questi dati si sono presentati alla mia vista quali sono le cause le cose possono essere tante e non sono tutte uguali d'accordo se io sono abitato a aspettare mia moglie a cena alle 8 non la vedo arrivare sono le 9 le cause del motivo per cui mia moglie a cena alle 8 possono essere tante stata fermata dalla polizia un incidente sta con un amante si è fermata a fare la spesa vanno rapida gli alieni queste 5 cause non hanno tutta la stessa probabilità e dipendono dal mio stato di conoscenza rispetto a queste 5 cause anch'esso ha una probabilità è molto improbabile che sia stata rapida gli alieni forse spero sia improbabile che sia con un amante abbastanza probabile che si sia fermata a fare la spesa certo è possibile che sia stata fermata dai carabinieri ed è anche possibile che abbia bucato ciascura con una certa probabilità l'unione di questa probabilità con l'unione di probabilità che riguarda i dati mi consento di aggiornare il mio stato di informazione ecco questo è un po il modo in cui mi scuso se ho detto delle cose un po forse semplificate rispetto a chi conosce bene la teoria della probabilità al calcolo statistico eccetera però fondamentalmente è questo e oggi con dei programmi è l'ultima cosa che è importante che bisogna dire che queste cose che sto dicendo non è che ci siamo inventati negli ultimi 15 anni o 20 anni è soltanto però negli ultimi 15 anni o 20 anni che abbiamo la possibilità di veramente mettere in pratica queste teorie perché abbiamo i calcolatori cioè un pensatori o matematici del passato dell' 800 pascalla plus matematici filoso che c'era già c'erano arrivati tranquillamente alla probabilità delle cause a questi concetti che appena espresso il problema è che non c'erano gli strumenti per analizzare grande quantità di dati e fare tanti calcoli su questi dati oggi le abbiamo e quindi di fatto il metodo scientifico quel metodo che ci consente di interpretare aggiornare la nostra conoscenza si può basare sui calcolatori sull'informatica perfetto poi torneremo tra l'altro approfondendo alcuni dei temi che ha iniziato a toccare prima però volevo passare da Marco Deramo e fare un po' leva sulla tua sulla conformazione sul tuo essere sociologo proprio per toccare un po questo aspetto dei dati più anche per quanto riguarda il loro impatto sulla società perché appunto abbiamo detto io ho detto gli ultimi 10 perché pensavo soprattutto all'avvento di social network e ad un e dall'altro lato all'avvento del del deep learning che ovviamente da una parte producone dall'altra analizzano dati vuoi giustamente dicevate 15 20 30 anni però è una condizione tutto sommato recente quella della nostra società di essere così circondati quasi sommersi da dati che vengono prodotti in quantità esorbitanti e tra l'altro siamo passati da una fase iniziale di quest'ultimo periodo storico in cui si attribuiva questa produzione di dati delle caratteristiche delle proprietà quasi miracolose e benefiche a invece arrivare oggi in cui se ne parla spesso in termini di sovraccarico informativo sulla nostra società poi abbiamo sentito parlare di di infodemia quindi secondo c'è una relazione cos'è che si può dire tra gli aspetti tra la relazione della quantità di dati che ci sommergono e la quantità invece di informazioni informazioni utili che noi riusciamo magari ad estrarne come società e poi a farne a farne uso direi che concettualmente tu devi dirgli delle due cose i dati che tu costruisci i dati che tu progetti proponi di avere e i dati che ti piovano addosso cioè la cosa è completamente diversa perché mentre lo scienziato tradizionale costruisce Wilson esperimento per avere i dati adesso ai situazioni epistemologiche in cui tu costruisci uno seguimento perché prima ti sono arrivati addosso dei dati che tu non sai a spiegare quindi è completamente diverso è praticamente rivolta la frittata questo rivolta la frittata di l'affatto questo è vero non so adesso anche che vi ne stavo pensando mentre parlavi che magari un satè il nostro telescopio web sta sta anch'aricando dati di cui noi non sappiamo niente che hanno già sconfessato la teoria della relatività generale quella di stritta però noi non lo sappiamo probabilmente non lo sapremo mai perché non sappiamo dove andare a guardare cioè il problema adesso è diventato essenzialmente questi dati che ti piovano addosso dappertutto di scegliere quali sono pertinenti quali non sono pertinenti perché è quello il punto tieni conto che quando noi parliamo di big data noi parliamo di una cosa che è molto difficile forse è più è più preciso quando noi usiamo il computer più preciso parlare di data exhaust cioè se avete i tubi di scarico e i tubi di scarico delle automobili ecco in teoria dell'informazione adesso con denna si usa lo scarico di informazioni che noi lasciamo sui computer senza corgiocene per esempio per gli studiosi del comportamento perché è importante perché tutte queste persone che analizzano tutti questi dati li usano per creare dei modelli per predire il nostro comportamento e per quel che serve predire il nostro comportamento serve che uno decide se produrre un bene o non produrre se vendere qualcosa non produrre cioè tutte è un business b2b business to business che si scambia le predizioni comportamentali quindi quei tu che è il come vengono fatte queste con le cose accumulando questi dati quantizzandoli datizzandoli cioè rendendoli maniponabili dal computer applicando gli moderni del deep learning dell'intelligenza artificiale e poi tirando fuori le predizioni le predizioni sul nostro comportamento futuro presente futuro prossimo futuro remoto perché si chiamano deteczos perché per stabilire queste cose per esempio se uno pronuncia male una parola a me sembra irrilevante ma il computer per il computer non lo è se se se io accendo faccio faccio una ricerca alle 7 e mezza del mattino tutti i giorni mi sembra un tic invece per il computer è importante cioè queste sono le scie di dati come esattamente i motori si lasciano i tubi di scarico scaricano il fumo noi scarichiamo dati senza corso e sono questi dati che che sono intera che si comprano e si vendono che che fanno diventare google cosi grande e tutte le cose perché guadagnano tutti questi soldi perché vendono questo cioè loro è molto interessante noi non ci accorgiamo noi siamo nello stesso tempo gli utenti del web e siamo la merce di scambio del web cioè lo siamo comprati e venduti in tutta la nostra storia questa questa è la cosa interessante questo naturalmente è ambivalente perché c'è c'è un c'è una una professoressa di harvath shoshanna zuboff che in un intervista diceva guardate appena sentite la parola smart prima di una di una geggio toccatevi perché qualcuno vi sta contro vi sta vi sta mettendo dentro un database e quindi è l'altra parte e fa un sacco di cose utili quindi è molto ambigua questa faccenda la vera situazione è che noi siamo in una galassia di dati un modo brauniano di dati che circolano nelle mannezze stravite di tagliare due cose da un po da tecnico del settore allora vorrei anche spattare qualche convenzione per cui ci viene subito l'ansia o mio dio se parli dati di sanità sono in un grande sistema che mi osserva che mi rubo informazioni che mi mette mi vende eccetera calma perché non è esattamente in questi termini distinguiamo innanzitutto che è sicuramente vero che oggi come oggi abbiamo la possibilità di accedere a dei dati che non sono stati raccolti per gli scopi che avevamo in testa ma sono stati raccolti per altri scopi faccio un esempio molto semplice le banche dati amministrative delle regioni in ambito sanità sono state create sono immense banche dati dove vengono registrati tutti i nostri acquisti di farmaci e tutti i nostri contatti col sistema sanitario queste banche dati servono per motivi di rendicontazione bisogna poter risarcire le strutture che ci forniscono salute ci siamo accorti ordine di una 15 almeno di anni fa che però da queste banche dati si possono trarre incredibili informazioni epidemiologiche che non vuol dire che io vado a profilare o a cercare quello che lei ha fatto come lei sta in quanto lei ma sono in grado di sfruttare questa informazione per comprendere alcuni comportamenti alcuni utilizzi della fornitura di salute in modo da ottimizzare la fornitura di salute e posso fare anche delle domande di tipo di epidemiologico che tipo di insorgenza cosa causa l'insorgenza e qui si apre un'altra cosa molto grossa che è legata quanto diceva lui prima la distinzione tra correlazione e causalità che ovviamente apre tutta un altro scorso e so che andremo lì a parare quindi lo lascio per un attimo il sospeso l'altra questione è è vero che magari in alcuni casi noi fluiamo di dati che non abbiamo disegnato quindi siamo investiti da questa mole di dati ma non è che c'è un meccanismo magico l'algoritmo di deep learning che è in grado di fare chissà che cosa l'algoritmo è un qualcosa disegnato da una persona che al netto dell'interpretazione umana non sa dire nulla anzi rischia di fare degli enormi danni proprio perché l'informazione oggi come oggi quando si è sommersi di dati è difficile da estrarre ma non dimentichiamoci mai che l'informazione non esiste come entità astratta esiste nel momento in cui c'è una domanda io dalla stessa scatola di mattoncini lego posso costruire un'ospedale una macchinina un albero degli animalletti semplicemente perché io uso un libretto di istruzioni in un modo in un altro la domanda che faccio a monte è una o l'altra quindi tornando al tema io come statistico a fronte di una mole di dati grande a piacere o complessa a piacere e oggi sono molto complessi quindi abbiamo sia tanti dati che dati molto più variegati e complessi a seconda della domanda che pongo quindi dell'obiettivo di studio che mi sto ponendo discernerò tra le fonti di dati e discernerò l'informazione contenuta dentro a questi dati grazie all'utilizzo di specifici modelli quindi di nuovo non stiamo parlando di magia e non stiamo parlando di cose che c'è più a monodosso che non possiamo controllare anzi la nostra responsabilità come scienziati dei dati è proprio quella di fornire dei metodi trasparenti di come l'imput è legato all'output e poi fornire delle spiegazioni il bello della statistica e qui mi collego quello che stava dicendo lui è che non è una scienza esatta come definiamo essere la matematica ai miei studenti la prima lezione quando arrivano al corso di statistica mi piace dire ragazzi se vi piace la questione per cui ad equazione corrisponda numero cambiate aula perché non è questa l'aula la statistica non si occupa di dare soluzioni esatte chiaro ne dà dalle previsioni ma il vero scopo della statistica è quantificare la variabilità di un fenomeno prima la collega ci diceva io di tutti i bambini misuro la stessa cosa ma ogni bambino è diverso nel modo in cui aggrega la multisensorialità questo è vero per qualsiasi problema e soprattutto per i problemi di tipo salute o di tipo biologico c'è una variabilità che per quanto io stia misurando il battito cardiaco di ciascuno noi siamo tutti sani sperabilmente qui non sarà mai uno uguale all'altro perché c'è una variabilità che non è un errore di misura è una variabilità la statistica si occupa di comprendere questa variabilità e di sfruttarla al meglio per fare delle previsioni che riescano a quantificare con quanta certezza siamo in grado di dire una cosa un'altra e questo è un altro messaggio che secondo me è importantissimo da dare a dei ragazzi a dei giovani si può dare fin dai primi anni delle scuole ok non è che se tu non ti riconosci nella previsione che ho fatto e ma io so che a mio cugino è successo una cosa diversa no la statistica si occupa di cogliere quello che è il trend caratteristico e di metterci attorno una variabilità che quantifica l'incertezza che noi abbiamo nel fare una determinata affermazione per questo è così importante sia essere molto trasparenti nei processi con cui analizziamo i dati sia però contestualmente che da parte della società ci sia una maggiore un maggiore sforzo nella diciamo formazione di un linguaggio che ci consenta di leggere queste informazioni perché oggi come oggi e diceva giustamente il collega siamo davvero sommersi i dati pensata la pandemia si comunicava tutto attraverso i dati peccato che la stragrande maggioranza della gente non avesse gli strumenti per comprendere cosa stava venendo comunicato e quindi qua si crea un gap che fa guardare con sospetto alla analisi dei dati in qualunque campo se andremo poi nel campo della salute disastro perché il sospetto ovviamente diventa timore e questo è un meccanismo che noi dobbiamo scardinare e adesso non riguarda ti ti pongo si certo certo allora è un due cose uno adesso va bene però la statistica è una cosa che deve i predizioni estremamente precise cioè voglio dire è molto improbabile che l'acqua a 100 gradi non bolla può succedere ma è molto molto molto improbabile sì però se mi è calcolato con la statistica cioè noi noi usiamo la statistica dei fluidi dei gas per stabilire leggi precisissime quindi voglio dire quando le numeri sono molto grandi sicuro che nessuno di voi ha provato a fare una misura del genere altrimenti non vi esprimereste con questa periodorietà per cosa intendere e chiunque si mette a fare un esperimento di fisica anche il più banale anche a misurare a che temperatura bolle l'acqua o non so la densità dell'acqua qualunque cosa richiede una pazienza perché regolarmente quello che si ottiene dalla misura non è quello che ci si aspetta quindi bisogna capire cosa sta succedendo ora naturalmente certo che l'acqua bolle a 100 gradi bolle a 100 gradi a temperatura ambiente siamo a temperatura ambiente a livello del mare siamo a livello del mare entro che entro che entro che precisione a curatezza il mio termometro in canto di misurare no però si è la somma proprio qui che si nasconde la quello in parte quello che stava dicendo la collega cioè il fatto che noi cerchiamo di governare l'incertezza d'accordo è pura accademia dire l'acqua bolla a 100 gradi certo quando colci la pasta non è tanto accademia è non è vero perché intanto bisogna vedere se l'acqua è acqua o acqua con aggiunta di sale se ci troviamo la c'è ci sono tante variabili che possono variare la nostra è una idealizzazione la pura h2o temperatura ambiente pressione ambiente cioè che sono convenzioni che noi stabiliamo a 100 gradi certo dopo di che andiamo a misurare assolutamente cioè quello che voglio dire è che la nostra accuratezza è la nostra precisione che sono cose diverse sulla misura ogni volta che noi andiamo a fare una misura senza arrivare a misurare il cosmo ma anche proprio banalmente io ricordo i primi esperimenti da da studenti di fisica che si va in laboratorio a misurare con il pendo un casino un casino assoluto quindi questo è una cosa molto istruttiva però visto che ormai stiamo chierando volevo aggiungere anche una cosa perché prima è stata detta una cosa molto interessante che potrebbe suonare male cioè che di fronte a delle a dei dati io posso estrarre delle informazioni diverse sembrerebbe quasi che ci sia del libro arbitrio che quindi poi la conclusione di si trae non vale o vale poco che chiunque sia autorizzato a dire quello che vuole su quei dati allora volevo raccontare un brevissimamente un episodio che riguarda il mio campo che forse qualcuno conoscono perché in realtà nella storia della scienza un episodio importante famoso che è quello della scoperta diciamo così fatela dire male la scoperta del big bang in realtà non è proprio nemmeno la scoperta del big bang ma è la scoperta di una cosa che dimostra che in un passato l'universo era molto diverso da quello che che è oggi e che c'è stata una fase in cui era molto molto caldo tutto l'universo era come se fosse estremamente caldo e compatto come se fosse una stella diciamo adesso non voglio dilungarmi in spiegazione non è questo il campo ma è interessante la misura siamo negli anni 60 e due astro due astronomi volevano fare delle misure che non c'entravano assolutamente nulla volevano fare delle misure di galassie e avevano bisogno di un antenna radio nel new jersey esiste ancora una volta è stata dominata tanto la bella abbratoris per altre ragioni la bella abbratorisava anche delle antenne per telecomunicazioni delle comunicazioni con satelli di otterrestri comunque radio telecomunicazioni a questa grossa antenna che era stata costruita per tutt'altro e questi astronomi contattano l'industria per dire ce la fate per favore utilizzare per fare delle osservazioni del cielo la belle risponde si va bene parliamo però voi dovete risolvere un problema perché c'è un rumore di fondo quando si parla di rumore per apparecchiature scientifiche non si intende se in genere non si intende di fruscio o del rumore come di un treno che passa ma di un disturbo nei dati d'accordo il lato non è perfettamente stabile non è esattamente quello che ci d'aspetta ci sono delle oscillazioni c'era questo rumore che distrubava quindi se voi ce l'ha aggiustata questa antenna noi la lasciamo utilizzare e questo è detto a bere noi ve la giustiamo e ci sono messi a lavorare per cercare di eliminare questo fruscio solo che ovunque puntassero questa antenna ovunque in qualsiasi direzione questa questo rumore di fondo non andava via e per cercare di mandarlo via questi scienziati non soltanto guardavano il cielo ma cercavano di comprendere lo strumento cioè cercano di capire ma questa radiazione che arriva dal cielo da dove da dove si arriva non importa come viene trasformato in un segnale elettrico ma tutta questa roba questi marchi ingegni che io qui nella mia antenna come funzionano qual è la tecnologia che utilizzata a quel tempo c'era c'erano i primi i primi modelli di maser che è un antenato del laser che sostanzialmente era una tecnologia nuova andava capita andava studiata andava compresa c'erano una serie di informazioni da capire sulla strumentazione e il dato che loro vedevano i dati a proposito di i dati che cos'era era una traccia su della carta su un rullo che girava e sul quale un ago con un inchiostro lasciava una traccia ricordo quello era il dato d'accordo quando parliamo di dati parliamo di quindi se vogliamo andare a vedere nudo il crudo del dato è un pezzo di carta con una traccia di inchiostro a bere con una scala graduata con dei numeri però lì c'è tanto innanzitutto c'è la comprensione cioè per interpretare quel dato c'è la comprensione dell'esperimento che loro avevano ma soprattutto a un certo punto arriva una vagonata diciamo così di informazioni riguardanti la quello che io accennava prima la probabilità delle cause cioè se io a un certo punto faccio un'osservazione e però mi arriva un'informazione nuova d'accordo che una causa possibile nuova che spiega perfettamente quello che sta facendo allora abbandono tutte le cause che c'erano prima e scelgo questa come spiegazione come interpretazione per puro caso a 50 chilometri potrebbe essere dall'altra parte del mondo ma a 50 chilometri da dove questa antenna era installata nello diversità di priston c'erano degli astrofisici che piacevano tutt'altro e che si occupavano di una cosa che andate a vedere su wikipedia restano nel questo momento per spiegarla si chiama radiazione cosmica di fondo questa radiazione cosmica di fondo si presenta come una radiazione che emette la stessa cosa in qualsiasi direzione noi guardiamo verso il cielo questi scienziati che si chiamavano pensias e wilson questi che lavoravano sulla antenna sentono parlare quindi ecco la vagonata di informazione la causa possibile nuova che sentono parlare di questa nuova teoria sentono parlare del fatto che ci sono degli scienziati che addirittura stanno progettando degli esperimenti a proposito di progettare io progetto un esperimento per cercare di accogliere i dati ma questi invece non stavano facendo quello questi stavano stavano facendo un'altra cosa e gli è arrivata l'informazione che era necessaria per interpretare quel dato questo senza cambiare nulla di quel pezzo di carta su cui c'era la traccia di inchiostro mettendo insieme quello che loro sapevano dell'esperimento e mettendo insieme questa nuova informazione cioè il fatto che puntando questa antenna ovunque io dovo vedere un certo segnale capendo che quel rumore che la belle laboratori stava chiesto di rimuovere non era rumore ma era il segnale aspettato in qualsiasi direzione si montasse l'antenna a quella frequenza capendo questo si è riuscito a interpretare quel dato quindi quel dato è diventata una scoperta scientifica che poi ha anche fruttato il Nobel questo era per dire quanto la differenza che c'è fra il dato l'interpretazione che cosa significa e a proposito volevo attimo affrontare un'altra pagina che è quella che si diceva della capacità dei dati di cambiare la società dell'importanza che diciamo del fatto che la società possa avere accesso dei dati allora intanto va beh nel caso della cosmologia se volete sembra una cosa estremamente distante molto più distante che di quanto non possono essere ditati clinici rispetto all'influenza che questa disciplina può avere sulla società beh intanto tenete presente che chiunque faccia un lavoro sperimentale e anche pronto a reagire con rapidità quanto quanto hanno messo pense se wilson negli anni 60 a rivoluzionare un pezzo di da un pezzo di carta la visione che non abbiamo detto universo erano pronti a farlo gli scienziati anche non medici che di fronte all'arrivo della pandemia hanno avuto la possibilità la capacità di reagire sia per interpretare i dati sia per guardarli sia per capire quello che altri scienziati stavano dicendo sia per progettare degli esperimenti o dei device medici per esempio nel mio piccolissimo ho avuto la fortuna di partecipare all'inizio della pandemia io non faccio il medico non costruisco device medici però costruisco esperimenti scientifici in cui ci sono c'è dell'elettronica ci sono delle valbole ci sono i varia attrezzatura hardware e software per cui abbiamo messo insieme proprio che a milano un ventilatore meccanico d'emergenza e questo è stato possibile grazie al fatto che le comunità scientifiche hanno una grandissima capacità di adattamento e di lavorare in collaborazione per produrre una cosa del genere infine dico che rispetto all'accesso dei dati rispetto all'accesso delle tecnologie rispetto all'accesso al software all'hardware che si utilizza in generale nel mondo medico ma in qualsiasi altra cosa secondo me a mio avviso è molto importante mettere l'accento e mai perdere di vista l'importanza della accessibilità non soltanto in termini tecnologici non soltanto in termini di disponibilità tecnica e di capacità tecnica nel leggerli ma anche da un punto di vista politico economico nel senso che i dati sono una produzione dell'intelletto perché appunto sappiamo che bisogna investire il sacco di soldi è vero che arrivano anche diciamo in maniera così quasi incontrollata però comunque costano costa raccoglierli costa spiegare come sono stati raccolti e quindi sono i database protetti in Europa sono protetti da una cosa che si chiama diritto sui generi perché tutte queste cose di cui parliamo ricordatevi sempre che vengono poi inseguite dal diritto cioè quando arriva il primo negli anni 40 50 60 i primi che si sono occupati di informatica non si preoccupavano minimamente di come il loro software doveva essere protetto da un diritto d'autore cioè il diritto d'autore che proteggeva le opere di ingegno l'opera d'arte la letteratura la musica eccetera però a certo punto è stato preso così come era e si è provata ad applicarlo al software oppure sono stati presi i brevetti anche quelli sistevano per proteggere se anzi per risolvere il problema del segreto industriale che doveva essere diciamo distribuita la società e c'erano i brevetti anche quello è stato un alternativo al diritto d'autore cosa si usa per il software il diritto d'autore o si usa il brevetto c'è stata un genetriba poi a certo punto diventato il diritto il copyright che non è il diritto d'autore ma insomma si somigliano e poi a certo punto queste cose non cambiate c'è una lunga storia di questo però poi sono arrivati i database il database che cos'è è un'opera creativa è un'opera collettiva è un'opera derivata è assimilabile una enciclovedia o un'antologia in cui io prendo pezzi fatti raccolti da altri metto assieme aspetta aspetta questo naturalmente vale per quello che sto dicendo in generale poi per i dati chiaramente qui siamo nel primo tecnopole pensiamo dati dati medici ma naturalmente questi dati potrebbero essere non non non non c'è un premio di privacy là dove i dati non riguardano le persone d'accordo ci possono essere dati che io raccolgo sul clima noi non devo proteggere la privacy del clima opposto raccoglieri dati su come dico prima dell'universo altre cose poi certo c'è il problema della della privacy però ancora prima di questo c'è un problema di accesso accesso in termini di diritto di accesso oltre che di capacità questo è importantissimo durante la pandemia è stato uno dei temi fondamentali che sono stati richiamati a più riprese anche da personaggi illustri che dicevano o dateci sti dati e spiegate come questi dati sono stati presi altrimenti sono inutili quindi c'è bisogno di una trasparenza nel modo in cui questi dati sono stati raccolti sono stati presentati vengono presentati vengono rappresentati in grafici vengono diffusi naturalmente nel caso della privacy non non mi non entro perché non sono un tecnico naturalmente è importante dire che esiste la possibilità di anonymizzare i dati cioè il dato che viene raccolto dalla farmacia o dall'ospedale su quella particolare operazione su quella particolare intervento non è rilassi può scoporare dalla persona e chiaramente può essere interessante diciamo poi ragionare in senso statistico senza che ci sia un nome agganciato al dato ma questo è ripeto un argomento che non mi riguarda io volevo soltanto mettere l'accento sull'importanza che ha l'accesso alla disponibilità di questi dati anche in termini di diritto di accesso non soltanto tecnologicamente la capacità di accedere da secondo me alcune delle cose che hai detto si ricollegano un tema che secondo me a me ha colpito molto almeno francesca lo chiedo a te ovvero quando abbiamo citato già più di una volta la pandemia e quando si è iniziato a discutere di possibili soluzioni di possibili metodi per per trovare soluzioni alla pandemia soluzioni intendo proprio al punto di vista sanitario anche farmacologico erano usciti una caterna di articoli su come l'intelligenza artificiale o come i big data ci aiuteranno a individuare il covid in questo modo a individuare nuove farmaci o a ricalibrare insomma riadattare dei farmaci già esistenti per il covid tantissimi tantissimi studi si pensava che l'intelligenza artificiale avrebbe davvero potuto essere uno strumento per la lotta al covid e alla pandemia passano questi due anni difficoltosi che abbiamo affrontato e io sono recentemente incappato in una in uno studio che andava a vedere un poche fine avevano fatto tutti quegli esperimenti i dati erano sconfortanti per esempio su 200 sperimentazioni di utilizzo di big data e simili nella lotta al covid solo due di questi studi avevano avuto la luce verde per fare uno step successivo tutti gli altri siano rivelati quasi fallimentari e tu che idea ti sei fatto che quali possono essere le cause forse la fretta nella raccolta dati le diversità nella raccolta dati l'urgenza perché è stato un po' non so bene non so bene a quali cose tu stia facendo riferimento però diciamo più in generale io sono per la human intelligence non l'artificial intelligence e questo secondo me è il vero problema attorno alla questione mi rifaccio ad alcuni esempi che riguardano dati della pandemia durante la pandemia noi abbiamo confuso spessissimo il fatto di descrivere gli andamenti col fatto di poterli predire nel poterli predire entrano in gioco sia questioni che vanno a parare su modelli di tipo fisico cioè che spiegano come il covid diffonde i modelli per la diffusione della pandemia sono modelli proprio anche di natura fisica altra cosa sono i modelli che noi costruiamo in maniera agnostica c'è senza la conoscenza del meccanismo fisico che che che è ritrostante a questi a questi fenomeni a partire dai dati quindi noi apprendiamo con relazioni cerchiamo il più possibile di trasformarli in causa azioni e cerchiamo di fare delle previsioni a cui purtroppo appunto si deve associare un'incertezza per renderle poi affidabili allora io ripeto non so a quali modelli nello specifico tu ti riferisca però quello che spesso succede che si parli un pochino a sproposito sia di big data sia di artificial intelligence oggi si chiama artificial intelligence anche di quando si parla di metodi che erano noti 30 anni fa sotto il nome di statistica e regressione lineare oggi si parla di artificial intelligence che è una cosa che a me fa abbastanza sorridere però è una questione anche di marketing e quindi l'accetto invece sul discorso dei big data secondo me c'è una grossa problematica di fondo che innanzitutto cosa vuol dire questo big e quanto questo big possa davvero essere un valore perché molto spesso tanti dati vuol dire tanto rumore non vuol dire necessariamente tanta informazione e qui torniamo al punto di prima l'altra questione è che big molto spesso non vuol dire soltanto tanti nel senso di tante persone magari vuol dire anche informazioni molto complesse e allora serve tempo per capire come rappresentare in maniera opportuna in maniera congiunta anche tutte queste informazioni che contribuiscono a darci una specie di spesso ci si riferisceivasse con il termine impronta fingerprint no della persona all'interno del processo di salute o biological in cui è inserita ora di per sé non è che l'intelligenza artificiale possa o non possa fare grandi cose secondo me ha delle immense potenzialità nella capacità che ha di aggregare fonti di dati etereogenee quindi l'informazione genomica l'imaging il registro clinico eccetera e tirarne fuori una sintesi utile utile in teso di consola all'applicazione poi di modelli predictivi questo secondo me è un potenziale su cui c'è un margine infinito di lavoro il punto però molto spesso ne quando si parla di sanità e di salute è che noi non abbiamo necessariamente sempre questi big data volte lavoriamo con dei numeri assolutamente normali e quindi su quello c'è bisogno di spendere molto ragionamento sul tipo di modello che si applica questi dati e attorno alla considerazione che faccio prima non è che l'intelligenza artificiale è una magia per cui io applico un sistema già preconfezionato al dato e questo sistema magicamente strale informazione è un algoritmo quando lui prima parlava di informatica no è un algoritmo quindi una cosa che va costruita comprendendo il problema sulla base delle caratteristiche dei dati in modo tale che si è in grado di elaborarli e quindi tirare fuori l'informazione quindi diciamo io intravedo un enorme potenziale per l'intelligenza artificiale nell'analisi dei dati con cui oggi abbiamo a che fare enorme nell'aiutare soprattutto a fare una fase che una volta chiamavamo preprocessing oggi non chiamerei preprocessing chiamerei più data engineering cioè una fase di costruzione dell'informazione poi a valle di questa c'è tutta la parte di applicazione del modello di predicione che può avvenire con metodi di intelligenza artificiale può avvenire con metodi più tradizionali il punto non è questo il punto è che la comprensione che abbiamo del problema sia tale da consentirci di tirare fuori il valore aggiunto che i dati possono dare e non è detto che raccogliendone tanti uno lo possa fare in automatico perché a volte magari raccoglie tantissimo rumore e l'informazione utile rimane molto piccola questo è esattamente uno dei problemi che era stato sollevato in alcune delle ricerche che sono poi andata a studiare che cosa fosse andato storto perché per esempio c'era il tema dati elaborati da persone diverse in luoghi diversi anche in culture diverse quindi aggregati in maniera diverse quando poi venivano a loro volta uniti si creava un un rumore di fondo enorme e poi c'era anche un altro problema legge sulla privacy diverse per cui i tipi di dati diversi che possono essere comunicato in modo diverso che poi va portato anche qualcuna a dire e qui poi chiederò anche a Marco ma se la privacy diventa può potenzialmente teoricamente diventare addirittura un ostacolo certo sto facendo un discorso solo in linea teorica io già lo prometto sono uno strimo difensore della privacy se la privacy può addirittura diventare un ostacolo alla lotta al covid diventa veramente difficile tirare le somme e capire dove tirare la potenza ha centrato un punto fondamentale il covid c'è più avuto addosso e obiettivamente quello che abbiamo fatto secondo me come ricercatori è incomgnabile in generale perché si è riusciti a dare delle soluzioni magari non ottime ma ha un problema che rischiava di veramente di annullarsi per cui io non mi permetto di giudicare ovviamente di sicuro però si possono identificare delle problematiche i dati che venivano raccolti non erano raccolti in una maniera diciamo né uniforme tutti non raccoglievano la stessa cosa ma un esempio tipico è noi raccogliamo il numero di positivi non sappiamo non siamo in grado di di sapere se abbiamo raccolto tante volte la stessa persona se raccogliamo il numero pulato di positivi oppure il numero assoluto per giorni cioè non c'era chiarezza nel disegno con cui dati venivano raccolti mancando questa chiarezza è impossibile anche che ci sia una comprensione diciamo strutturata del dato che stiamo guardando ma poi soprattutto come dicevi giustamente tu i livelli di accessibilità l'informazione erano diversi ma non da continente a continente da regione a regione in italia che è quello che tipicamente succede per i dati in sanità abbiamo 22 legislazioni diverse quindi quando tu dici la privacy io la chiamo accessibilità perché lì non era una questione di privacy nessuno veniva mappato io non sapevo che tizio caio semprogno erano il dato x y non z a parte che si può sempre anonymizzare ma il punto è l'accessibilità sta diventando oggi un problema che ci sta giocando contro cioè io sono la prima come te a dire che è importantissima la tutela non solo della privacy ma del diritto e questa va messa davanti a qualunque cosa soprattutto quando si parla di problematiche di salute dove quindi entra l'etica entrano tutta una serie di cose però al tempo stesso garantire uniformità nell'accessibilità alla fonti dati è importante sia perché la ricerca deve poter proseguire e se ha un ricercatore non fornisci la benzina e non va da nessuna parte ma poi anche perché come dicevi prima se stiamo guardando sfaccettature diverse di un problema in vita inevitabilmente arriveremo a conclusioni che sono magari non contraddittorie però in qualche modo differenti e questo non contribuisce alla chiarezza complessiva allora la soluzione per questo tipo di problemi è duplice in anzitutto essere sempre estremamente chiari su cosa si sta osservando e che cosa si sta analizzando c'è la riproducibilità della scienza è un forte antidoto verso diciamo le misinterpretazioni dei dati dall'altra parte però ci deve essere uno sforzo di andare un po' oltre quella che è una paura non sempre totalmente giustificata rispetto alla quale c'è un hiper protezionismo che non consente di fare cose che invece avrebbero una ricaduta sicuramente positiva nella comprensione dei fenomeni e un'ultima cosa invece mi permesso di dirla sempre legata al covid è quella per cui molto spesso si confonde anche il tipo di risultato che si può avere pensiamo al discorso dei vaccini sul covid non ci hanno detto che tipo di conseguenze possono avere forse non è chiaro nessuno che per comprendere le conseguenze in un trial clinico di solito un trial clinico dura anni proprio perché affronte dell'efficacia uno vuole anche comprendere se ci sono contra indicazioni noi siamo stati investiti da un problema che sostanzialmente non ha consentito i tempi di esecuzione di un trial clinico siamo un trial clinico vivente con ovviamente quindi abbiamo dovuto gestire questo è vero sempre quando si parla di problemi legati alla salute un trade-off tra benefici e costi è brutto da dire ma non costi economici cioè costi inteso compromessi ed è brutto da dire ma purtroppo questo è un qualcosa che tipicamente torna nelle questioni che riguardano l'analisi dei dati è chiaro che c'è un ottimo l'ottimo è sapere e comprendere perfettamente la fisica del problema perché questo ti permette di fare delle relazioni che sono causa conseguenza purtroppo non è possibile a volte o non è facile arrivare a quel livello di comprensione i dati sono una traccia ovviamente di fenomeni che ci consente di avere una lettura più o meno adeguata dei fenomeni e quindi noi dobbiamo cercare di comprendere quanto avanzata può essere la comprensione dei fenomeni che i dati ci forniscono in modo tale da poter fare una valutazione in questo beneficio certo marco non so se tu avevi qualche considerazione su questo macrotema in particolare magari anche sul sul trade-off tra e perché tu prima hai citato anche ceciana zuboff è un po tutta la questione della sorveglianza tra l'analisi dei dati e i vantaggi che un'analisi dei dati può portare a livello proprio sociale in generale e quelle che invece magari a volte vengono viste anche dall'alcuni politici italiani sono state accusati di essere delle inutili paturni cioè quelle della privacy della riservatezza guarda è un terreno minato per il senso che è il concetto stesso di privacy che è cambiato io quando questo nel tuo passaporto digitale ci sono un sacco di dati e che vengono trasmessi a ogni frontiera in cui tu vai e quando io entro in america mi prendono l'iride quindi noi siamo abituati a un livello molto basso di privacy cioè siamo arrivati a a mettere a disposizione della comunità involontariamente lo facciamo quasi spontaneamente di dare questi dati io volevo ritornare un po su un paio di cose la prima cosa è che vedete c'è un termine un epidemiologo che si chiama paulo vines che ha scritto dei belli di epistemologia delle delle epidemiologia lui raccontava una volta che la gente cercava talmente le cause del beriberi che è una malattia che si pigliava sulle navi e nell'oceano pacifico nel sudestasiatico che questi avevano trovato varie volte la ragione per cui per cui c'è il beriberi ma non la rifiutavano perché non era un virus e cioè loro cercavano il virus del beriberi perché allora che era che era il modello monocausale cioè un effetto una causa una gente e la gente deve essere un virus o un bacillo una cosa e quindi no invece quella era carenza di una vitamina appunto dovuta al fatto che il riso veniva brillato in un certo modo invece che un altro questo per dire una la seconda cosa è che noi parliamo di date è molto vero questa questione dei dati per esempio c'è il famoso esempio di three mile island perché voi dite le radiazioni fanno male alla salute però dicevamo vedere a three mile island però a three mile island c'è gente che se ne è andata quindi potente che è stata esposta ma non c'è più invece gente che è arrivata che è stata esposta poco come costruite come costruite il campione è complicatissimo quindi voi vedete che il modo di affrontare le cose in epidemiologia è un modo multifattoriale e che è un approccio multifattoriale non è un approccio monocausale questo cambia completamente tutto anche per quello che riguarda noi l'altra cosa riguarda la faccenda voi sapete che la sociologia è nata con un libro sul suicidio sì infame il primo grande libro è che è proprio un libro di geocime che si intitola il suicidio perché lì è proprio un caso multifattoriale perché ognuno si suicida per la propria ragione assolutamente individuale cioè non c'è niente di più individuale di più di più personale del suicidio però guardate che cosa strana che succede che i tassi di suicidio in ogni società sono straordinariamente costanti e sono diversi da una società all'altra questa è una cosa straordinaria cioè in Italia sono sempre la stessa cifra centesima più centesima in meno sono sempre la stessa cosa e in Giappone sono sempre uguali sono imprese certo sui 50 anni ma sono straordinariamente costanti cioè quest'atto straordinariamente così individuale produce collettivamente una cosa molto costante questa è quello che noi chiamiamo un fenomeno sociale non è perché è sociale ma perché gli individui si comportano in modo tale che collettivamente risulti una stessa cosa allora quando noi parliamo di quello che sta succedendo adesso da noi noi dobbiamo essere molto elastici voi sapete che la bandra di obama era una ricercatrice ford che aveva un ottimo sistema sanitario poi le venne il tumore e la malassicurazione non ti paghiamo le cure perché la causa del tumore era per una causa del tumore precedente alla nostra presa in carico come assicurazione cosa vuol dire vuol dire che adesso sempre più l'assicurazione una cosa che la legge di obama ha cercato di venire sempre più l'assicurazione dice no io a te non si ti hai assicurato come ma questa matia non te la posso curare perché era iscritta nel tuo genoma quindi punta e basta io non ci posso fare niente cioè se tu sei predisposto al tumore ciccia per aver di tu qui vedete che quindi stiamo su un su un codo per cui da un lato la stessa ricerca aiuta a curare il tumore no aiuta a prevenire il tumore aiuta a diagnosticarlo meglio ma questa stessa cosa può essere usata in modo totalmente diverso quindi dipende di noi dobbiamo c'è siamo ancora legati a una definizione cartacea ottocentesca dei concetti di tipo di identità di privacy di controllo mentre in realtà il insomma noi la ragioniamo con concetti sorpas so io faccio breve il concetto di democrazia fu inventato in lettiga il concetto di capitalismo fu inventato in nave a vela il concetto di socialismo fu inventato al vapore adesso non ci sono più nel tighe nei vapore nel navi a vela ma noi continuiamo a ragionare in questi termini e quindi voi vedete che è un bel casino e la tecnologia procede in modo che che non è una velocità diversa da quello che precede nostri concetti quando quando adesso insomma per esempio i matematici c'è un teorema che si chiama teorema dei quattro colori che è stato dimostrato non è stato dimostrato è stato dimostrato con computer con la forza brutta ne hanno messo a calcolare brum brum brum e sarebbe stato impensabile una volta che si dimostrava un teorema con la forza brutta del computer ecco quindi l'idea stessa di dimostrazione matematica comincia a cambiare in questi termini quindi voi vedete che noi ci troviamo in un orizzonte concettuale abbastanza in una terra il terra sconosciuta corra diceva che ci sono vaste aree dei continenti che nel cartel geografiche sono bianche e che noi si ritroviamo con molto bianco e è un bel guaio perché perché invece le cose succedono prima che noi possiamo definirle un altro grazie un altro grosso problema che si verifica molto di frequente quando si tratta di analizzare i dati è quella famosa confusione soprattutto da fatto ovviamente attraverso approcci ingenui che però abbiamo già visto aver avuto poi ripercustioni concrete sulla società e poi ci torneremo è quello della differenza quando si tratta di statistica tra correlazione e causalità c'è un esempio che viene sempre tirato fuori ma che ripropongo giusto per l'occasione ovvero pare che ci sia una correlazione molto elevata tra l'uscita dei film di nicola schegge la quantità di persone che muore a negato in piscina è un esempio classico di correlazione spuria però questo questo l'utilizzo sempre più ampio di metodi statistici per l'analisi che poi vanno anche ad essere impiegati per trovare soluzioni o potenziali soluzioni questa confusione che a volte si crea tra correlazione e causalità può creare anche grossi problemi. Sì allora intanto mi sentite? Allora quando si parla di correlazione per chi si occupa di analizzare dei dati essenzialmente significa che se io rappresento i valori di un dato di un dato relativo a una certa quantità in funzione di un altro dato relativo un'altra quantità quello che vedo è qualcosa che non è una nuvola confusa di dati ma che in qualche modo ha una forma e questa forma ha una causa d'accordo? Ora naturalmente questa causa può risiedere da varie parti quando si dice la correlazione non è causalità si intende di che la causa che produce quella forma cioè produce quella che io chiamo correlazione un esempio mi accorgo che ci sono delle cose che vanno insieme bisogna capire dove sta se stanno i dati se sta nel modo nelle domande che mi faccio se sta nel modo in cui sono stati presi eccetera quindi bisogna fare molta attenzione soprattutto bisogna capire quale delle possibili cause è quella che spiega il fatto che c'è quella particolare forma se ha un caso minazzo tutto perché può anche essere un caso quindi bisogna capire entro che limiti è un caso no eccetera quindi fondamentalmente questo si ricollega un pochino a quello che dicevo prima in maniera così un po più diciamo così impressione diciamo per dare un'impressione l'ipotesi che facevo sul motivo del ritardo di mia moglie o altre cose no cioè io faccio delle misure e devo capire qual è la causa che io utilizzo per interpretarle ho notato che faccio una piccola parentesi che questa scelta delle cause è una scelta che io opero fra le cause che io conosco o al limite tra le cause che io mi posso inventare che naturalmente non potranno mai essere tutte le cause possibili immaginabili quindi prima cosa non ci sarà mai una certezza assoluta so quale è la causa d'accordo perché questo è proprio diciamo la costruzione della scienza della conoscenza scientifica a questo limite non ci potrà mai essere una certezza se non altro per quello che ho appena detto e poi la domanda che io trovo sempre ho trovato molto interessante da dove arrivano queste cause cioè io posso raccogliere dei dati no ma poi da dove arrivano le possibili interpretazioni da dove arriva l'idea che al certo punto pensi a se wilson hanno utilizzato per interpretare il loro dato e dicendo che quella era una radezione che proveniva dal dato rigido il cosmo da dove arriva l'idea che se mia moglie ritarda possa essere stata rapida dagli alieni o possa avere un amante o ancora posso immaginare assolutamente più probabile assolutamente più probabili no però perché da dove proviene il fatto che può sapere un amante proviene dalla mia esperienza perché l'amico mio c'ha ah sì sì d'accordo perché l'amico mio c'ha la moglie con l'amante o io stesso sono l'amante di qualcuno e in passato ho avuto un'esperienza simile quindi in un caso in certi casi possono essere esperienze e pregresse ma in certi casi no io non ho mai visto mia moglie o nessuna moglie rapida dagli alieni eppure mi invento questa cavola avventa una stupidaggina però quello che voglio dire qui insomma andando a concludere la mia la mia considerazione è che è chiudendo la parentesi è che la fantasia è un elemento chiave del processo scientifico d'accordo quindi è tutt'altro che privo di creatività e fantasia il processo scientifico perché se non altro ci dobbiamo inventare la causa più che meglio spiega quello che noi raccogliamo e che quindi ora io penso che la persona che possa rispondere ancora meglio la tua domanda sia lei però questa è la mia è la mia risposta solo prima di lasciare la parola un'ultima cosa sulle sulle questioni delle intelligenze artificiali allora gli algoritmi quando si parla di algoritmo fino a prima dell'avvento delle intelligenze artificiali si parlava di algoritmo come di un metodo deterministico per risolvere una classe di problemi in maniera computazionale che dato un certo dato di input produceva sempre lo stesso dato di output devo calcolare l'area di un triangolo dati i cateti c'è una formula che c'è un procedimento matematico per trovare il risultato voglio ordinare un mazzo di carte secondo un certo ordine c'è un metodo che funziona meglio di un altro magari per ordinare il mazzo di carte e l'ordina sempre lo stesso modo e così via questi sono gli algoritmi old school la bene l'idea di algoritmo è questa poi arriva l'intelligenza artificiale l'intelligenza artificiale l'intelligenza artificiale in moderne più avanzate sono anche se sì tecnicamente sono degli algoritmi ma sono di un'altra natura se non altro per una ragione che non c'è nessun essere umano che risa a spiegare cioè l'essere umano cosa fa adesso faccio un esempio veramente molto molto confuso e approssimato però per darvi un'idea immaginate che conoscete tutti il gioco indovina chi quel gioco in cui ci sono le carte con le con i volti no e io devo indovinare quella che è stata scelta quindi io chiedo ai baffi se si tolgo tutti quelli che non hanno i baffi poi alla camicia ai capelli lunghi ai capelli corti eccetera e quindi vengono man mano mano seleziono e trovo la carta corrispondente ora immaginate di avere una macchina che vi dice il contenuto di una fotografia facendo qualcosa di simile a quello che farebbe l'algoritmo di indovina che si comincia a fare tutta una serie di domande d'accordo questa macchina non è stata istruita esattamente con delle domande questa macchina in qualche maniera produce delle risposte in base a quello che degli esseri umani la istruiscono a fare cioè io faccio vedere la la foto di un lupo e la macchina mi dice è una cazella e allora io dico no hai sbagliato e la macchina impara che quello non è una cazella poi la macchina mi dice è una nave io dico no e così via così via fino a che non io dico è un lupo si è un lupo dopo di che perché la macchina ha stabilito che quello è un lupo io non lo so va bene infatti c'è l'esempio classico che viene raccontato che si approccia l'intercettore artificiale a un certo punto la macchina aveva capito che quello era un lupo semplicemente perché lo sfondo era neve d'accordo ora ora questo è un esempio estremamente forse troppo crostronamente semplificato però il concetto è che questi macchinari agiscono secondo dei circuiti logici secondo secondo secondo dei schemi logici che non sono chiari di fatto a nessun essere umano o solo parzialmente sono chiari gli esseri umani e quindi gli si buttano il riconoscimento dei volti per esempio tanto della voce sazzam che vi riconosce il brano eccetera riescono a farlo molto molto efficientemente con degli algoritmi che solo parzialmente sono comprensibili sono spiegabili non c'è nessuno essere umano che vi sarebbe che sarebbe bene dirvi esattamente cosa è successo vi può dire alcuni principi alcune regole alcune forme matematiche ma non tutto e questo è drasticamente diverso rispetto a quello che era in precedenza l'algoritmo è bene questo poi andando a concludere poi vediamo chiedo se ci sarà anche qualche minuto per le domande alcuni degli argomenti di cui si parlava adesso il tema della black box oltre a chiederti poi ovviamente di fare tutti gli appunti che ti sei che del caso però alcune delle cose che lui menzionava adesso sono anche alla base del cosiddetto bias algoritmico i pregiuristi dell'intelligenza artificiale tutto quel tema a me aveva colpito per esempio anche in base a quello che tu dicevi proprio all'inizio cioè quando arrivano gli studenti che pensano di voler studiare matematica e riconò questa statistica andate via perché comunque sì beh la riassunta è un po' ruvida ma anche però è vero che comunque c'è questa tendenza a giudicare la statistica come necessariamente oggettiva e quindi ad avere questa fiducia estremamente quelle che poi sono spesso le soluzioni adottate da dall'intelligenza artificiali o i procedimenti suggeriti dall'intelligenza artificiali salvo poi scoprire che ci sono algoritmi l'abbiamo scoperto algoritmi utilizzati per selezionare i candidati in un posto di lavoro che in passato hanno discriminato le donne ci sono stati algoritmi di polizia preditiva che hanno discriminato le minoranze si sono verificati tutti questi casi che hanno risvegliato in noi e anche una parte della causa è la black box di cui di cui parlava lui sì in realtà le cause degli esempi che stavi facendo è un'altra delle cose che lui citava cioè il bias nel data set che si usa per fare imparare questo è in realtà il vero problema dei problemi che stavi dicendo tu perché gli algoritmi di intelligenza artificiale sostanzialmente sono degli algoritmi molto bravi a imparare quelli che noi chiamiamo bias cioè a imparare alcune regole che caratterizzano il data set che loro servono quindi se noi li forniamo facciamo il caso appunto delle donne discriminate un data set in cui le donne sono minoranze o hanno sempre dei lavori di un certo tipo l'algoritmo imparerà ad associare a questa categoria del nostro data set sempre quel tipo di informazione perché impara sostanzialmente a targhettare a stratificare nel modo che vede nel data set iniziale da cui impara e lo stesso vale per la discriminazione razziale piuttosto che associava sempre ad una certa categoria di persone un certo tipo di investieri o una certa categoria di persone una più alta percentuale di criminalità quindi traeva delle conclusioni che in realtà erano frutto semplicemente dell'associazione spuria che leggeva nel data set da cui imparava motivo per cui in realtà oggi gli algoritmi come quelli che stanno dietro a google piuttosto che sono vengono fatti a prendere da database che sono non solo ampi ma sono randomizzati cioè contengono nel modo più globale possibile tutti i tipi di rumori chiamiamoli così proprio perché ci sia il minor numero possibile di questi bias cioè di queste correlazioni spurie che altrimenti la macchina impara perché poi la macchina è molto brava di imparare quelle e quindi ti ripropone quelle quindi in realtà il fenomeno che tu stai dicendo è più legato a questo tipo di cosa che si riconducia ad un aspetto che quello bisogna prestare attenzione al disegno dell'esperimento bisogna prestare attenzione a gli insiemi di dati su cui facciamo imparare inoltre i nostri algoritmi perché poi i nostri algoritmi imparano quello ti faccio un esempio che purtroppo in realtà non è un problema dell'algoritmo è un dato di fatto se io ho un data set relativo ad una malattia rara io avrò pochissimi pazienti che hanno la malattia e per fortuna i per definizioni malattia rara e tantissimi che non ce l'hanno se io devo istruire un algoritmo che mi dica con che probabilità un nuovo utente avrà una malattia rara o meno il mio algoritmo sarà bravissimo a predirmi chi non ce l'ha ci azzeccherà con una precisione incredibile sarà molto meno bravo a predirmi chi ce l'ha perché ha avuto poco materiale per imparare allora alcune volte questo a questo si può ovviare semplicemente mostrando gli più casi da cui imparare in altre situazioni che come quella che ti ho appena descritto non si può ovviare a questo tipo di problema allora devono entrare in gioco altri tipi di sistemi quindi questo è un discorso ovviamente del bias che abbiamo l'altro discorso che si lega più a quello di prima è lo stare attenti a ciò che è correlazione a ciò che è causazione l'esempio che a me viene sempre da raccontare quella della cicogna che porta i bambini che è un tipico esempio di misinterpretazione del fenomeno si vedevano nascere i bambini e si vedeva sempre la cicogna sul camino e uno dice beh è perché la cicogna porta bambino tipico esempio di misinterpretazione la correlazione c'era è vero che nelle case dove c'erano i bambini spesso vedevi la cicogna ma il motivo non è che la cicogna portava il bambino ma perché le case con i bambini erano calde e quindi la cicogna faceva nido perché era più caldo e come dice lui questa è una causa no è chiaramente bisogna poi parlare di come si elencano le cause e è quello su cui ha risposto lui quello che si tenta di fare da un punto di vista biologico sul tanno meccanismo del genere è tentare di capire quali tra delle associazioni tante che vediamo tra le espressioni dei geni e quello che poi vediamo espresso in modo anche molto variabile a livello fenotipico si può davvero imputare ad una qualche forma di causalità cioè si può dire che il talgene o la modifica del talgene è responsabile di di nuovo in realtà ci sono delle tecniche e sono delle tecniche cioè sono dei metodi che consentono di andare nella direzione di individuare una causa e non semplicemente imputarla ad una concorrenza di fenomeni ok quindi di nuovo secondo me da una parte cioè margine per i metodi e per questo che io sostengo tanto non bisogna cercare sempre di semplificare tutto serve sofisticazione nei metodi dei analisi specie quando i problemi diventano difficili specie quando i dati magari sono complicati spesso quando i fenomeni sono complicati e noi dobbiamo essere bravi ad inventarsi la causa giusta quindi serve sofisticazione nei metodi per poter evitare di incorrere in questo tipo di cose questo era un pezzo della risposta la parte sul black box è un altro grosso punto perché la forza della statistica chiamiamo la tradizionale è di essere sempre stata white box cioè c'era una quantificazione diretta tra input e output magari il modello era molto semplice ma aveva come grosso vantaggio un interpretabilità molto alta i modelli l'intelligenza artificiale sono metodi magari molto più precisi nel fornire delle predizioni ma che poi non consentono di comprendere il meccanismo perché sono relazioni altamente non lineari quelle che giocano e ad esempio questo ai medici ti faccio non piace per niente loro preferisco magari un modellino più semplice ma in cui riescono a capire come agire rispetto a modello magari più bravo più sofisticato ma di cui non riescono a comprendere il meccanismo a questo scopo però gli ultimi oserei dire almeno 5 anni se non di più non sono poi un esperto del settore hanno dedicato tantissimo pensiero proprio per cercare di ricondurre il black box ad essere se non un white box almeno un gray box cioè a metodi che si vanno sotto il grosso cappello di explainability e che cercano in qualche modo di ovviare a questo inconveniente che sicuramente genera della diffidenza o quanto meno magari delle di nuovo delle misa interpretazioni dei risultati che abbiamo io chiedo se abbiamo ancora qualche minuto per fare delle domande perché vedo che siamo retardo di 10 minuti mi dicono sì 5 minuti quindi se qualcuno ha delle domande per i nostri ospiti senza tu una mano o vedo male io sì no vedo male io ecco ok molto interessante io c'è un'osservazione a mezzo domanda si uno è l'interpretazione dei dati effettivamente mi ha fatto pensare molto io faccio monitoraggi ambientali e prima parlavo di city and science perché credo nell'empowerment dei cittadini sulle tematiche scientifiche però ho avuto lo stesso problema perché quando fai city and science tu fai prendere i dati ai cittadini però poi vanno interpretati cioè un dato puntuale di un superamento altissimo di un metallo e sicuramente un dato però io dico sempre ai bambini quando analizzano i fiumi e come farei l'analisi del sangue cioè poi ci vuoi qualcuno che l'interpreta perché io che non è sognante il sangue vedo dei valori sballatissimi e mi preoccupo tantissimo poi vado dal medico dice guarda questo è per questo motivo è solito quindi l'interpretazione dei dati è importantissimo e l'altra cosa è l'utilizzo allora mi ricordo a quanto diceva Marco Terema sull'utilizzo dei dati allora può essere che se io ero un fan di rototame però oggi ormai è possibile tutelarsi come dicevamo una volta perché in questa stanza abbiamo sai i telecamere di una circolare quindi ok però quello che possiamo tutelare forse è l'utilizzo di questi dati allora se questi mi do i miei dati per un dataset su una malattia per cercare di risolvere un problema medico ma lo do molto 20 anni magari in forma anonima però lo do 20 anni invece se do dei miei dati per fornire un sistema di controllo e sorveglianza che ne limita le mie libertà o un sistema di marketing che poi mi fa una pubblicità invasiva non lo voglio fare quindi è il punto su questi grandi dati è una cosa importantissima per prendere decisioni però l'utilizzo che va normato che cosa ne pensate? Sì, sì, sì, per coppiamo. Certo. Paralessalmente oggi è molto più facile che tu venga profilato e quindi il momento in cui accedere a una qualsiasi piattaforma qualsiasi quante volte hai dovuto fare login, password, registrati eccetera che tu venga profilato per motivi di marketing o per motivi quali quelli che menzionavi è molto più facile quello che per me ricercatore acceder ad un qualsiasi tu dato sanitario in forma anonima per la ricerca questa è secondo me uno dei grandissimi scandali oggi giorno perché noi siamo profilati in ogni modo anche volontariamente c'è una questione proprio che viene chiamata data ismo nel senso noi forniamo i nostri dati in una maniera te lo chiedono e tu dici sì certo va benissimo quindi è molto più facile essere profilati per motivi commerciali o per motivi di inserzioni o per motivi di qualunque natura ma è difficilissimo oggi per un ricercatore accedere ad un dataset anonymizzato in modo sistematico intendo non intendo per via di collaborazioni scientifico ovviamente se io ho una collaborazione con un clinico con tutti i chismi del caso posso accedere a quel dataset io sto parlando di accesso sistematico della ricerca alle fonti di dati di un certo tipo che stavo dicendo poi all'inizio c'è che ci deve essere anche il problema il problema del tema dell'accesso non perché ho le capacità o i mezzi ma poi perché politicamente e da un punto di vista regolatore io devo poter accedere a quei dati scusate ma la facendo in realtà la facendo è più preoccupante no adesso noi esiste una cosa che si chiama un trattato tra di collaborazione di intercettazione e registrazione dei dati che copre tutto il pianeta e hanno dei centri in cui stanno loro sono hanno dichiarato loro che sono in grado di immagazzinare le registrazioni tutte le telefonate di tutto il pianeta nei prossimi 40 anni ora evidentemente loro non è che se le mettono a ascoltare perché non avrebbe non ha senso comune quel cosa vuol dire quello che però se qualcuno gli rompe le scatole nel momento in cui gli rompe le scatole e straggono l'informazione cioè non è vedete che il modello di sorveglia si è cambiata non è che sorveglia non è il panoptico della del carcere che tutti i giorni no no è sta lì a disposizione è materiale in se in magazzino che però viene viene tirato fuori quando ne hai bisogno quindi è questo il nuovo modello che che con cui abbiamo che fare è perfettamente vero che che scusate le fortuni non so quanto è capitalizzato facebook google ma qualche qualche centinaio di miliardi ognuno e questi 500 miliardi sono esattamente guadagnati scambiando scambiando vendendo dai dati delle persone che usano queste queste piattaforme è molto che mai si parlava stamattina perché c'era di cripto valute questo è un tema centrale delle cripto valute c'è il fatto che praticamente qualsiasi transazione possa essere tracciata quindi sono fatte perché si è tracciata sono fatte per per evadere il tasse e perché siano tracciate perché la sua storia si è esemplamente quindi no quindi la cosa è vera come studiamo i dati l'etica è molto lontana dall'arrivare alle necessità oggi che avremmo in termini di sfruttamento dell'informazione io resto positiva su questo tema cioè abbiamo siamo di fronte ad un enorme non nel senso del covid abbiamo un enorme opportunità davanti che ci viene fornita dai dati dalla tecnologia ma è indispensabile che noi come essere umani riflettiamo su che utilizzo ne vogliamo fare ed è indispensabile che ci diamo una nuova etica basata su questi principi per porre dei limiti a cosa è legittimo non legittimo fare e ci diamo degli obiettivi comuni che non possono dipendere soltanto da un fattore di tipo economico e secondo me questo è un messaggio che oggi inizia ad emergere per quanto inizia ad emergere con enorme ritardo perché come dicevamo le tecnologie vanno molto più veloci di quanto il messaggio più importante che deve rimanere da questo pomericcio infatti direi che anche il messaggio perfetto per concludere questo nostro secondo panel quindi ringrazio tantissimo Francesca Lleva, Marco Deramo e Federico Nati e grazie a voi