 Perfetto. Allora, buonasera e benvenuti. Questo è il terzo appuntamento della serie di webinar che sono stati organizzati a partire dallo scorso anno da parte di diversi progetti e initiative che operano nel campo della gestione della condivisione dei dati. Oggi parleremo del dataporta all'italiano. Vi do subito alcune nozioni pratiche che vi serviranno per seguire questo webinar, intanto per chi ha bisogno del certificato di frequenza. C'è un form da riempire con un link dedicato che vi metteremo anche nella chat. Per favore durante il webinar usate la chat solo per problemi tecnici o per informazioni. Non usatela per le domande perché facciamo altrimenti fatica a gestirle. Usate invece durante la presentazione il tasto dr che ci servirà quindi per interagire con voi mentre gli speaker stanno parlando. Sia durante le presentazioni che poi anche alla fine di questa prima parte quando avremo la discussione potete utilizzare questo tasto oppure nel caso in cui alla fine del webinar avremo un codice da gestire attraverso il Mentimeter. Per chi non lo ha mai usato potete collegarvi con il Mentimeter potete collegarvi e inserire un codice e interagire con noi. Allora vi do l'agenda di oggi. Io sono Emma Lazzari e sono ricercatrice presso l'Istituto di Scienze e Tecnologie dell'informazione del CNR e sono anche formalmente affiliata al GAR. Matteo Chiara, ricercatore dell'Università di Milano e CNR ci farà insomma introdurrare la situazione del nostro paese per quanto riguarda i dati genomici del SARS-CoV-2. Federico Zambelli sempre dell'Università di Milano e CNR è coordinatore tecnico di Elixir Italia che si è occupata di creare il portale italiano, il covid data porta l'italiano connesso a quello europeo e poi Marco Carraro scusate alla fine della giornata di oggi, Università degli Sudi di Padova ci farà un po' vedere quali sono le prospettive future e lo stato dell'arte del portale e poi speriamo insomma di avere un'ampia sezione alla fine di discussione. Perché siamo qui? Il perché lo conoscete, lo dice anche il titolo della nostra serie, collaborare è la chiave per sicuramente sconfiggere la pandemia. Lo abbiamo visto in questi mesi, condividere il più possibile i dati della ricerca ci permette di velocizzare il processo del progresso scientifico sicuramente per aiutare tutti a uscire dalla pandemia ma anche in altri campi. L'importanza comunque di gestire correttamente e condividere i dati, la vediamo anche per altri motivi. I dati se non vengono gestiti correttamente, non vengono correttamente condivisi possono andare perduti e quindi c'è una perdita dell'impatto non solo del finanziamento che ha portato alla raccolta dei dati ma proprio una perdita dal punto di vista del progresso scientifico. I dati se non vengono condivisi nel modo corretto possono essere manipolati, lo abbiamo visto nei webinar introduttivi che probabilmente alcuni di voi hanno seguito, la manipolazione dei dati non è una cosa così estranea al mondo della ricerca, i dati possono anche contenere errori, errori che possono essere di varia natura, dietro a questi errori c'è una volontà di manipolare i dati ma sicuramente condividerli con il resto della comunità scientifica aiuta a eliminare la possibilità di fare errori e poi sostanzialmente il motivo per cui i dati devono essere non solo gestiti ma anche condivisi è che possono essere riutilizzati anche in altre ricerche quindi anche da parte di ricercatori, di ambiti diversi o che comunque non hanno partecipato alla loro raccolta e poi possono essere riutilizzati nella società e lo vediamo benissimo con l'uso che viene fatto dai policy maker in questo periodo dei dati covid. Abbiamo quindi preparato per voi una serie di eventi che in parte si sono già svolte, in parte si svolgeranno nel corso di quest'anno. Oggi parliamo del Dataporta all'italiano ma abbiamo anche in programma altri webinar in particolare sul problema dei dati epidemiologici e poi tutorial dove speriamo di aiutarvi a condividere e gestire correttamente sia i dati omici che i software quindi protocolli ed altri strumenti per l'analisi dei dati. Il Mentimeter è questo, se utilizzate il QR code che vedete sulla destra di questa slide e allo attraverso il vostro tablet o il vostro cellulare potete votare la domanda che fra poco vi farò vedere oppure potete collegarvi al sito www.menti.com e inserire il codice che vedete su questa slide quindi 49 17 68 oppure potete cliccare sull'inche diretto che vi stiamo mettendo adesso nella chat. Detto questo io vi ringrazio passo la parola allo prossimo speaker e vi invito a votare alla domanda del Mentimeter che vedete sullo schermo perché poi ne discuteremo alla fine della prossima presentazione. Smetto di condividere ok grazie Matteo prego Matteo non ti sentiamo forse al microfono si non trovava un bottone ok però ora non vediamo nemmeno più la presentazione perché mentre sono in modalità condivisione non vedo dove sta il bottone è vero giusto poter parlare quindi proviamoci ok ora mi sentite e dovreste poter vedere la presentazione allora in questa mia presentazione proverò a introduirvi nella prima parte alcuni concetti di base del perché è importante sequenziare i genomi del SARS-CoV-2 nella seconda parte proverò a mostrarvi cosa si è fatto nel nostro paese da questo punto di vista nel corso dello scorso anno e come la situazione si è evoluta nel corso degli ultimi due tre mesi come ovviamente tutti sapete non è necessario fare grandi introduzioni da circa un anno mai più di un anno l'OMS ha dichiarato una pandemia di Covid-19 mentre siamo ancora tutti alle prese con la pandemia il numero di casi purtroppo su base e su scala mondiale continua ad aumentare perché i primi indici che qualcosa del genere potesse succedere li abbiamo sin dall'affine del 2019 l'agenzia etiologico cioè il patogeno che causa la malattia del Covid-19 è un coronavirus che si chiama severe acute respiratory syndrome coronavirus numero due o SARS-CoV-2 e il genoma di questi coronavirus o questa famiglia di virus che si chiama coronavirus è un genoma a singolo filamento di RNA relativamente compatto in dimensioni se confrontato ai genomi che solitamente sono tipici degli organismi superiori ma relativamente grande per un virus una delle peculiarità che sta sempre diventando più nota dei coronavirus è la loro capacità in realtà di infettare diversi tipi di organismi e al momento attuale abbiamo una conoscenza relativamente limitata di tutti i coronavirus che esistono però sono classificati in quattro diversi generi e ognuno di questi generi ha una nicchia ecologica in cui è più o meno infettivo ma sovente e sempre se lo spesso si verificano dei cosiretti eventi di spillover in cui un coronavirus è in grado di saltare da un ospite così come lo conosceramo ad un altro in questa immagine vedete brevemente la rappresentazione della struttura di una particella virale di un coronavirus il capsidè che è la cosiddetta struttura proteica che contiene in realtà il materiale genetico che vedete all'interno questa l'RNA è composto da quattro proteine di queste quattro una è particolarmente importante l'agricotroteina spike che quella che vedete rappresentata nel cerchio e che si protrude dal capsidè stesso perché la proteina che il coronavirus usa sia per riconoscere le sequenze target nell'organismo ospite quindi per infettarlo ma è al contempo anche la proteina che l'organismo il sistema immunitario dell'organismo ospite riconosce maggiormente per produrre gli anticorpi quindi al momento attuale come pensiamo e qual è il nostro modello per capire come succede allo spillover cioè il passaggio di un particolare coronavirus da un organismo all'altro. Dalla nostra comprensione del meccanismo nella proteina spike questa proteina che è media di riconoscimento con l'ospida c'è un particolare dominio chiamato the cognition binding domain che è il dominio che riconosce esattamente a quale proteiner ospite legarsi è stato dimostrato e in varie occasioni già a partire dal 2003 con la prima epidemia di SARS-CoV che pochissime mutazioni in questo dominio della proteina possono causare un adattamento a una proteina target di una specie diversa e quindi un salto di spacer ospilover. Ad oggi per quanto la cosa non forse così nota a livello globale sono già noti oltre al SARS-CoV 2 altri 7 coronavirus che possono infettare l'uomo ovviamente questi causano sintomi meno gravi o sono associati a eventi più ristretti ma il meccanismo con cui i coronavirus saltano da una specie all'altra era già largamente noto in particolare per l'evoluzione del coronavirus la proteina dal nostro punto di vista in quanto ospiti dei virus stessi più importante è questa proteina S di cui vi ho parlato largamente che è la proteina che allo stesso tempo target nel nostro sistema immunitario per la maggior parte ma è anche la proteina che il coronavirus usa per diventare capace di infettare diversi organismi non solo si è già noto e si è già visto che vennello più efficiente questa proteina il coronavirus è anche in grado di diventare più infettivo perché l'infettività dipende dall'efficienza della proteina spike di riconoscere il suo target quindi mentre l'evoluzione fa il suo corso c'era una battaglia che si combatte a livello della proteina spike per il coronavirus per modificarla in modo da fare diventare più efficiente quindi diventare più infettivo va da un certo punto in poi anche per modificarla per fare in modo che la proteina non venga riconosciuta in maniera efficiente dal nostro sistema immunitario da un certo punto di vista anche se questo non è completamente vero in una formazione rossolana quindi la proteina spike è quello che possiamo considerare il maggior beraglio per l'evoluzione dei coronavirus purtroppo però dal punto di vista nostro dalla nostra sprospettiva lo studio di quali sono le caratteristiche o i tratti fenotipici se vogliamo dei virus non è così semplice perché diversamente dagli altri organismi non li possiamo osservare quindi al momento attuale per capire come procede l'evoluzione di un virus e che cosa sta succedendo l'unica strategia che abbiamo è qualcosa di più indiretto non possiamo effettivamente se non con lunghissimi saggi in laboratorio che non sono compatibili con i tempi di una pandemia a capire qual è il fenotipo dei virus ma possiamo dato lo sviluppo di nuove tecnologie di sequenziamento e in tempi molto più rapidi sequenziare i genomi dei sudetti virus capire quali sono le differenze e predire dato dove sono le differenze se queste possono avere una qualche conseguenza dal punto di vista evolutivo e dal punto di vista di quello che i virus sanno fare questo anche sulla base delle informazioni che già abbiamo è per questo motivo che non deve sorprendere che nell'ultimo anno a partire dal gennaio 2020 da quando il virus è stato riconosciuto isolato e sequenziato per la prima volta sono state prodotte e vendono rese disponibili a vario titolo in diverse manche dati più di un milione di sequenze genomiche del patogeno e il cosiddetto approccio di sorveglianza genomica che l'approccio che al momento attuale si sta rivelando efficace per capire se e dove emergono nuovi varianti di sasco 2 e si sta dimostrando l'approccio più efficace per capire esattamente come sta procedendo l'evoluzione e quali sono le nuove mutazioni di cui dovremmo occuparci. Il primo esempio di questo approccio di sorveglianza genomica si ha avuto nella metà dello scorso anno quando in diversi paesi del mondo si è notato che una particolare mutazione in maniera non così sorprendente nella proteina spike sembrava essere diventata molto più frequente in diversi paesi in maniera indipendente. Lo studio che ha fatto questa osservazione è stato pubblicato su cell e in questo diagramma non è importante ricordarsi qual'è la mutazione e qual'è il residuo vedete in arancio la frequenza dell'allele chiamiamolo così che rappresente nel genoma del coronavirus prima della mutazione che era quello wild type e ad un certo punto vedete che questa diminuisce perché una nuova mutazione la sostituisce e vende il coronavirus più efficiente nell'infettare le cellule umane. Gli autori dello studio hanno dimostrato che questo non era un effetto casuale dovuto al fatto che un particolare virus era prevalente in un particolare paese e questo era ma prendendo idrati a diversi intervalli di tempo in diversi continenti e sia dove il coronavirus SARS-CoV-2 già era prevalente con la mutazione sia dove lo era senza è stato dimostrato nel tempo e nello spazio che in maniera consistente e costante questa nuova mutazione diventava la più prevalente nella popolazione di coronavirus che circolavano in tutti i paesi o in tutte le regioni o in tutti i luoghi in cui era incosso la pandemia e successivamente ben un 5-6 mesi dopo il fatto che questa mutazione fosse stata segnurata da questi cosiddetti processi di sorveglianza genomica vari studi in laboratorio hanno pure dimostrato definitivamente facendo dei saggi di infezione che questa mutazione effettivamente rende il virus più infettivo e quindi più in grado di proliferare più velocemente quindi questo è il principio a cui ci ispiriamo per sequenziare un numero sempre crescente di genomi. Un secondo esempio è quello della cosiddetta variante inglese alla fine di dicembre o sì alla fine di dicembre anche se in realtà la variante è comparsa prima da Aveni Unito è stato annunciato un'allarme generale perché è una nuova variante, nuovo come viene chiamato in termine tecnico lignage del coronavirus era apparso nel Aveni Unito e in questo semplice grafico potete vedere per ogni lineage il numero di mutazioni ad esso associate che corrispondono un pallino a blu questo nuovo lineage che è l'ultimo che vedete nel grafico aveva un numero non così usuale più grande del solito di mutazioni ad esso associate e ancora una volta in maniera non così sorprendente queste nuove mutazioni erano per la maggior parte associate alla glicoproteina spike e si è osservato nel tempo almeno nel Aveni Unito cosa che si vede da questo ultimo grafico in cui vedete la prevalenza delle varie mutazioni che queste mutazioni sono diventate molto frequenti nel tempo se prendiamo ad esempio la situazione nel Aveni Unito al novembre qui il rosso vedete la rappresentazione della prevalenza di questa nuova variante era limitata solo al sud est del paese a dicembre si aveva una circolazione ben molto più estesa a gennaio la variante era altamente prevalente in tutto il paese e a partire da febbraio questa nuova variante con questo set di mutazioni è diventata la variante predominante nel Aveni Unito anche ancora e anche in questo caso il fatto di aver sequenziato le sequenze del patogeno prima di avere ampi e numerosi dati a disposizione ha reso disponibile i dati in maniera preventiva e ha permesso di capire esattamente cosa stava succedendo ci sarebbero altri numerosi e sempre da mostrarvi e molti di questi probabilmente direggete anche sui quotidiani a un certo intervallo di tempo ma come ci si dovrebbe attendere come atteso anche i virus come tutti gli altri organismi rispondono o si adattano agli istimuli dell'ambiente in cui vivono quindi così come parliamo il processo di evoluzione dei virus continua a rimanere sempre in atto quindi questo motivo per cui importante sequenzialne le sequenze del genoma e riuscire a capire cosa sta accadendo in tempo reale infatti al momento attuale anche se c'è un minimo di dibattito ci sono tre diversi tipi del virus che vengono considerati particolarmente pericolosi e ho chiamati variant of concern che circolano con diverse prevalenze in diversi continenti ma che hanno tutti delle peculiari imbutazioni nell'agricoproteina spike che non discuteremo che dovrebbero renderli o che li rendono più efficienti nell'infettare o l'ospite ma anche marginalmente più efficienti nelle vade della risposta immunitaria tutto questo era per convincervi dell'importanza di sequenziare i genomi del virus e quanto questo approccio possa essere potente riuscire a farci prevedere o almeno capire in tempo reale che cosa sta succedendo dal punto di vista delle evoluzioni del vetogeno ovviamente però perché questo possa accadere noi dobbiamo campionare sul territorio e nel tempo un numero costante comparabile e omogeneo di campioni e ottenere da questi un numero adeguato di sequenze genomiche per tutto il 2020 questo non è stato il caso a livello mondiale perché se si andavano a considerare le sequenze disponibili in bancadati per diversi paesi che nel 2020 hanno spiorato comunque il milione quello che si notava che la maggior parte delle sequenze erano associate a determinati paesi quindi non è stato così sorprendente con la nuova variante del coronavirus si è stata provata nel Regno Unito a fine anno perché nel Regno Unito si sequenziavano un numero molto più grande di di genomi rispetto agli altri paesi e questo fatto che non per tutti i paesi abbiamo dati omogenei ci lascia con il dubbio che quello che abbiamo visto succedere nel Regno Unito sarebbe potuto succedere in altri paesi ma ce ne sarebbero probabilmente accorti con un grave ritardo anche quando si parla non solo del numero di sequenze che regnano prodotte ma anche dei tempi che sono necessari per analizzarli si vede una grande differenza quando vengono confrontati diversi paesi questo ancora è un indice del fatto che la situazione in tempo reale non l'abbiamo esattamente per tutti i paesi che sono colpiti dalla pandemia in questo grafico vengono rappresentati solo i paesi per cui a fine del scorso anno sono presenti mille genomi in una qualsiasi banca dati e sulla Sedele X vedete i tempi necessari dalla raccolta del campione al processamento e all'analisi dei dati che rendono i dati disponibili in banca dati è possibile notare questi sono dei botsplot dove la linea nel centro indica i tempi mediani che i tempi variano grandemente in diversi paesi ci sono paesi che sono molto più efficienti e impiegano pochissimo tempo a rendere disponibili i propri dati ci sono paesi che sono ai meno efficienti e impiegano una quantità di tempo più dirattata questo ovviamente rende i dati meno comparabili e rende la nostra sobregnanza genomica meno potente nel tempo quindi qual è stata la risposta a tutte queste necessità e a questi problemi ne parleranno in seguito diffusamente i miei colleghi la creazione a livello nazionale ma anche europeo di risorse dedicate per aumentare la e facilitare la condivisione dei dati genomici e la loro corretta deposizione nelle banche dati come vi dicevo ci sono stati anche vari interventi articoli su prestigiose riviste internazionali che hanno sottolineato come l'analisi stessa dei dati sia una delle parti più preponderanti dato che viviamo in un'epoca dove noi parliamo di genomi ma i genomi sono rappresentati principalmente in forma digitale cioè non abbiamo delle biobanche in cui abbiamo i genomi ma abbiamo delle banche dati in cui la sequenza del genoma è rappresentata sotto forma di una stringa di caratteri quindi nel tempo di analisi la bioinformatica o l'analisi dei dati è qualcosa che risulta preponderante allora veniamo alla situazione in italia in questi due grafici ho voluto rappresentare una discrasia che abbiamo avuto nel nostro paese rispetto al numero dei casi che abbiamo riscontrato nel grafico di sinistra quello in blu sono rappresentati il numero di casi noti all'autorità sanitaria nel tempo nel grafico di destra quello in grigio sono invece rappresentati il numero di decessi associati alla malattia nello stesso intervallo di tempo dal confronto dei due grafici è possibile vedere come l'italia che è stato il primo paese europeo colpito la pandemia in realtà fosse largamente impreparata a rispondere nella prima fase e probabilmente se confrontiamo il numero dei casi noti con il numero dei decessi dato che la letalità della malattia non è cambiata nel tempo quello che vediamo è che nella prima fase c'è stata una grande parte di mancata di agnosi o mancato riconoscimento da parte dell'autorità sanitaria di tutti i casi se veniamo invece al numero di genomi che sono stati sequenziati rispetto ai casi noti a dicembre nel 2020 questo numero era prossimo a un genoma ogni mille casi di cosi 19 un genoma del virus sono i mili del casi questo era comune a molti paesi in realtà dicerevo in precedenza pochissimi paesi hanno sequenze una proporzione rilevante dei casi che hanno avuto inoltre sempre venendo al nostro paese la situazione a dicembre ci diceva che se noi avessimo preso diverse settimane dell'evento pandemico il numero di genomi che venivano sottomessi in bancadati a diversi intervali di tempo dava una distribuzione fatta a picchi per cui in determinate settimane venivano sottomessi centimanei di genomi in altre settimane non veniva sottomesso praticamente nulla e questo ovviamente rappresenta un problema per la soprianza genomica dato che i dati non sono omogenei nel punto di vista geografico nel punto di vista temporale e sempre rispetto ai tempi di analisi fino all'anno scorso il nostro paese era uno dei paesi più lenti nell'analisi nel processamento dei dati rispetto a tutti quelli che avevano prodotto un numero relativamente alto di sequenze la situazione è migliorata molto negli ultimi tre mesi il numero di sequenze che venono prodotte è aumentato di circa cinque volte per l'italia e quindi siamo passati dal uno per mille cinque per mille è ancora un numero basso ma un aumento di cinque volte e invece se ci chiediamo i tempi di deposizione di analisi questi sono migliorati nettamente e in questo momento i dati che fluiscono nelle banche dati da parte dell'italia sono molto più omogenei nel tempo e sono molto più costanti e sono aumentati sostanzialmente da poche centinaia sono diventati migliaia anche se si evidenzano ancora alcuni picchi nella sottomissione dei dati e ma soprattutto i tempi di processamento sono diventati sempre più rapidi quindi pare che al momento attuale la situazione sia inetto miglioramento comunque c'è ancora qualcosa che al momento attuale non va perché se compariamo i dati di diversi regioni quello che ne esce è che ci sono c'è una distribuzione macchia di dopardo quindi abbiamo una efficienza che mediamente è aumentata di molto ma perché è aumentata di moltissimo a partire dal 2021 l'efficienza di alcune particolari regioni in particolare in questo grafico si vede che ora campagna ed abruzzo sequenziano rispettivamente qualcosa che è vicino al 2 al 3 per cento di tutti i casi che hanno scusate al 20 al 30 per cento di tutti i casi che hanno in quella regione quindi per concludere quello che volevo illustrare in questa presentazione era il fatto che sequenziano numero crescente e proporzionale ai casi che si hanno del genoma del coronavirus è un strumento utilissimo per capire in anticipo quanto i dati dicono che il genoma si sta evolvendo quali mutazioni dobbiamo tracciare di cosa dobbiamo preoccuparci e perché la cosa fondamentale è farlo in tempo reale perché vogliamo avere una fotografia sempre più accurata di quello che succede in un determinato luogo per l'italia la situazione è migliorata nettamente negli ultimi tre mesi c'è stato un netto cambio di marcia ma rimane il fatto che abbiamo delle informazioni molto precise per alcune regioni meno precise per altre regioni e questo quindi dal punto di vista di quello che possiamo fare per capire cosa sta accadendo in tempo reale è un miglioramento ma ancora non era considerarsi sufficiente e quindi concludo ringraziando tutte le persone che sono coinvolte nel covid data portal e in particolare i ragazzi del team IT che senza i quali sarebbe particolarmente difficile fare quello che stiamo cercando di fare in questo momento ma poi un ringraziamento particolare anche a erica ferrandi che è stata assunta da poco e in questo da ora in poi ci aiuterà a curare i contenuti e al team di comunicazione che ci ha aiutato a organizzare questo evento per far conoscere cosa vogliamo fare e che cosa il data portal può contribuire da questo punto di vista cose che saranno gli argomenti dalle prossime presentazioni quindi finisco di condividere lo schermo e grazie Matteo direi che posso passare la parola sì grazie senti prima di di lasciarci faccio vedere brevemente i risultati che stanno arrivando sul sul mentimeter dovreste poter vedere lo schermo adesso e la domanda che avevamo posto era quali tipi di dati gestite potete continuare a votare attraverso il link che è stato è stato condiviso oppure utilizzando il codice e collegandovi al sito www.menti.com quindi Matteo ti chiedo di commentare brevemente questi risultati mi sembra che ci sia un'abondanza di di dati di pubblicazioni e dati epidemiologici che io non ho trattato ma sono molto importanti anche anzi ancora di più specialmente non danno commento che non abbiamo trattato ma è l'integrazione di tutti questi tipi di dati perché i dati epidemiologici sono rapporti e dati genomici specialmente se dobbiamo studiare le proprietà e le evoluzioni del coronavirus ci possano aiutare a capire se le mutazioni che vediamo sono mutazioni che sono casuali e non hanno alcun effetto o se associato alle mutazioni che veniamo nel genoma ci sono effetti anche sulle curve epidemiologiche il numero di malati l'occupazione di posto in terapia intensiva eccetera eccetera non c'è stato il tempo di commentarlo ma la variante inglese è stata universamente riconosciuta come più infettiva e probabilmente più letale proprio sulla base degli dati epidemiologici che sono stati confrontati con i dati genomici vedo che ci sono anche tantissimi che hanno segnato pubblicazioni su questo faccio un breve commento e poi passiamo alla domanda successiva voi sapete che i grandi editori hanno aperto in open access tutte le pubblicazioni relativi al covid ma ogni volta spostano diciamo il termine di questa operazione un pochino più avanti sempre un pochino più avanti eravamo arrivati siamo partiti da fine ottobre dell'anno scorso per poi arrivare a gennaio adesso mi sembra siamo a fine fine aprile probabilmente sposteranno ancora in là questa data per la chiusura la nuova chiusura delle pubblicazioni quindi invito tutti a condividere in open access le proprie pubblicazioni perché presto tardi le le richiuderanno io posso certo buongiorno a tutti sono marco raro i prossimi speaker del ciclo similare di oggi questi dati in realtà sono molto interessanti sono in legger contrato indenza quello che sono invece i dati che noi raccogliamo nel portale tendenzialmente non il portale considerando il numero di accessi e il insomma il numero di pagi il tipo di pagine a cui si ha non si è accesso ci aspettiamo che i dati vg no so coloro che si ha come una genamica trascrittomica forse la stragrande maggioranza cosa che invece da questo da questo metimeter sembra essere non essere completamente così abbiamo appunto una grande grande numero di persone stanno parlando su dati clivici epidemiologici erologici che sarà uno dei prossimi focus su cui andremo a lavorare portale quindi ottima notizia benissimo io se non ci sono altri commenti vado avanti e quindi lancio la la prossima domanda che poi commenteremo alla fine della presentazione di Federico quindi Federico se intanto vuoi voi prepararvi intanto vi leggo questa domanda che è relativa alla condivisione dei dati voi avete una serie di di linee che potete utilizzare per dare un valore alle affermazioni che sono sotto quindi la vostra volontà di condividere i dati se c'è questa volontà di condividere sapete come fare quindi avete tutte le skill le conoscenze per farlo avete a disposizione la tecnologia per la condivisione sapete per esempio quali sono i repositori dove dove depositare i dati oppure i unità dati che dovete utilizzare e l'ultima parte è relativa alle regole cioè se i regolamenti istituzionali della vostra istituzione oppure altri altre normative anche dal punto di vista etico o altro vi permettono di condividere i dati io smetto di condividere lascio quindi la parola a Federico grazie mille emma vediamo se io sono in grado di condividere il mio schermo ok vedete la misnite ok grazie mille allora buongiorno a tutti io sono Federico Zandelli ricercatore di Milano e coordinatore tecnico di elexi d'Italia in questa presentazione volevo semplicemente cercare di inquadrare un attimo la nascita del portale covid 19 italiano nel contesto di elixi d'Italia nel contesto europea prima di tutto introduco brevemente cos'è elixi magari ci sono ancora tante persone che non lo sanno elixi dall'infrastruttura europea per la scienza della vita per i dati biologici è un'organizzazione intergovernativa che cerca di mettere a fatto comune di omogenizzare tutto quanto concerne la raccolta del dato biologico a sua gestione quindi interoperabilità gli strumenti di analisi il training importantissimi quindi formare le persone che devono mangiare devono processare questo tipo quindi generale la sua missione è veramente vasta come potete immaginare qua ho riportato alcuni del dei gol insomma di ampio respiro gli obiettivi di ampio respiro ad esempio mettere assieme cercare di capire l'influenza dei genomi sui fenetipi a livello delle popolazioni per esempio per degli asseri umani naturalmente cercare di capire come conciliare il problema della condivisione dei dati con quello della sicurezza dato biologico si da sicurezza il dato genomico come ad esempio come rendere i dati fair e tutto questo questo tematico con cui sicuramente molti di voi sono già anche abbastanza familiari come organizzata elixir e un consorzio cui partecipano 22 paesi europei anche non europei all'esempio israele più l'istituto europeo di bi informatica di MPI ovviamente essendo un'infrastruttura compito di una infrastruttura e quello di fornire servizie quindi molti dei servizi che magari voi utilizzate tutti i giorni anche se magari non sapete sono forniti da elixir o comunque da istituti da entità che fanno parte di questa infrastruttura per quanto riguarda il nodo italiano di elixir come ho detto elixir è formato da tanti nodi appartenenti tanti paesi ogni nodo si organizza ogni nodi in i paesi si organizza secondo le proprie preferenze delle sue specificità per quanto riguarda quello italiano attualmente composto da 23 tra principale università italiane enti di ricerca enti tecnologici come Gary nfm che ricerca la fisica ovviamente cineca quindi super computing pc e nea e tutto questo è coordinato dal dal cnr che è l'alit entiti o meglio il presenti entiti del nodo italiano ora io non voglio soltamente annoiare con come funziona come strutturato in italiano ho messo questo slide semplicemente fa vi capire che io sono tecnica coordinato quindi ho svolgo un ruolo interno del nodo che è quello di coordinare questo gruppo di lavoro che è quello dei local tecnica coordinato e semplicemente volevo sottolinearlo perché poi è da questo gruppo di lavoro che nasce l'idea di di proporre il portale italiano di ticovi quindi ci tenevo a ringraziare fin da subito chi collabora con me in termini questo gruppo di lavoro e ha messo l'isplizione la propria esperanza proprio tempo e proprio lavoro per cercare di fare qualcosa insieme ora avevo un attimino mettere nel contesto come è nata l'idea di generare il portale italiano come 19 in cui poi vi parlerà più nello specifico marco fondamentalmente dopo dopo l'estate dopo l'estate del 2020 e l'istaglia si fatto vari attività componenti vari istituti l'istaglia avevano messo in piedi vari attività fornito strumenti fornito risorse di calcolo per gestire analizzare eccetera i dati covid però insomma quello che quello che ci sembrava è che mancasse ancora qualcosa qualcosa di fondamental come ci ha spiegato prima prima marteo fondamentalmente quello che stava succedendo è che in italia fondamentalmente o dati in particolare dati genomici del virus ma anche altri tipi di dati riguarda virus o non venivano prodotti o se venivano prodotti chi li produceva non li stava non li stava condividendo in particolare il confronto è abbastanza imbarazzante con altre realtà ad esempio con quello che stava sta ancora succedendo in realtà il gap non è ancora col mato anche se come ci ha fatto vedere matthio qualcosa cominciamo a versi con quanto stava succedendo ne era in unito e noi pensiamo che stavamo pensiamo siamo convinti che fare la sorveglianza genomica sia un'arma a cui non si possa rinunciare ci dicono sempre quella del covid è una guerra e quando si è in guerra di solito si cerca di utilizzare tutte le ali quella sorveglianza genomica è un'arma fondamentale per conoscere meglio come si muove il nostro nemico quindi non ci sempre il caso di rinunciare e il contesto quindi diciamo dopo l'estate nell'autunno queste qua questi dati in realtà mi stanno qua il gennaio sono stessi che ha fatto vedere matthio genomi in italia ne venivano fatti in pochi e anche quelli che venivano pochi era un tempo di processamento un po troppo lungo perché alla fine anche la tempestività con cui i dati venivano processati è fondamentale perché più è veloce e più ci si rende conto in tempo reale di cui succede naturalmente noi non è che come l'ex Italia non è che avessimo tante leve su cui poter agire per migliorare questa situazione perché anzitutto come l'ex Italia non abbiamo il controllo diretto né indiretto della produzione dei dati sasco due e tanto meno dalla loro verificazione quindi è loro condivisione perché fondamentalmente queste attività avvengono avvenivano adesso qualcosa di non sta cambiando però finalmente avvengono ad esempio in istituzioni soprofilati sostituti regionali su cui noi non possiamo agire praticamente in nessun modo l'Italia non ha un datab nazionale per questo tipo di dati in cui sia obbligatorio per chi produce i dati inserirli e condividerli e poi c'è il problema quanto meno la situazione che come mi sapete in Italia la la sanità è controllata e controllata a livello regionale e quindi fondamentalmente ci sono venti sistemi diversi che a volte fanno fatica a parlarsi tra di loro a coordinarsi tra di loro addirittura da tante nostre discussioni con esponenti in misura della salute piuttosto che con esponenti l'instituto di sanità si capiva che anche loro fondamentalmente fanno fatica a coordinare quello che succede e quindi fondamentalmente siamo guardati in faccia abbiamo concluso che vista che la situazione questa quello che noi in quanto elizzo l'Italia ma anche in quanto cittadini esponenti del mondo scientifico quello che volete quello che potremmo fare così da aiutare era provare mobilizzare i dati che venivano eventualmente prodotti e che in qualche modo rimanevano sotto traccia e di aumentare la consapevolezza di quanto fosse sia importante fosse sia importante produrre questi dati curarli e condividerli e quindi ovviamente ci siamo imbarcati in una battaglia abbastanza abbastanza complicata però era anche l'unica che al momento avesse senso fare quindi ci siamo dati degli obiettivi strategici che fossero semplici anche perché fondamentalmente tutti quelli che hanno lavorato stanno lavorando al portale lavorano e volontariato scientifico fondamentalmente a parte Erika che ha citato prima Matteo che è stata da poco presa ma da pochissimo per contribuire al portale tutto quello che è stato fatto praticamente fino ora è stato fatto fondamentalmente su un passato volontario ci sono dietro fondi particolari progetti particolari quindi quello che potremmo fare gli obiettivi che siamo possi quello che potremmo fare è stato quello di appunto aumentare la consapevolezza dell'importanza della produzione di questi dati a loro condivisione di seminare quelle che sono le best practice linee guida per la loro condivisione per il loro processamento eccetera supportare per quanto possibile chi magari ha questi dati li produce ma non sa come condividerli metterli anche un po' in vetrina sia i dati sia i progetti scientifici sia quelli che sono i servizi per il processamento di dati quindi fornire un po' uno sbocco una vetrina però dalla possibilità che chi lavora queste cose magari anche di incontrarsi costruire un hub di di esperti quindi che possono dialogare tra di loro e tutto cercando di rimanere all'interno di un contesto europeo senza cercare di reinventarsi la ruota fare sforzi duplicati cose che non centono niente con quello il contesto come si potrebbe fare tutto questo ma la buona notizia è che comunque c'era già chi si stava muovendo in Europa il Consiglio europee la commissione europea scusate aveva già dato mandato ai bi di costruire quello che è il covid da tapporta al europeo di quello generale che trovate a questo indializzo e quindi già stava accadendo qualcosa si stava formando questa covid data platform che fondamentalmente metteva insieme risorse che già esistono ad esempio le banche dati che già esistevano le mettevano dietro questa questa vetrina questo portale in modo che i dati fossero più facilmente accessibili più facilmente raggiungibili chi fosse interessato tutto questo era supportato da molti infrastrutture di ricerca tra cui elixima anche tante altre come vedete qua e che tutto cercava di integrarsi poi con quelle che sono le infrastrutture nazionali i fenni e altre iniziative internazionali quindi fondamentalmente la piattaforma dei dati covid era formata ma lo vedremo anche tra poco da quelli che sono i ripositori i dati che già esistevano quindi le banche dati dell'insidici ad esempio l'ina e l'ig a per depositare i dati genomicidi degli ospiti con i dati genomicidi e poi dal nuovo covid data portale che cercava di integrare e di mettere in un contesto omogeneo questo quindi fondamentalmente il covid data portale si parla di quello europeo come vedete scritto qua nel titolo da covid data portale è un portale non so se chi di voi c'era già fino a anni 90 iniziano in 2000 quando c'erano in internet scopravoli portali che hanno semplicemente delle vetrine che andavano a organizzare contenuti che già comunque c'erano ecco perché molti magari quando sento poi data portale pensano che sia un ripositori nuovo ripositori dati no il covid 19 data portale si appoggia su quelli che già esiste i ripositori che già esistevano funzionavano bene dobbiamo sempre utilizzare l'esempio per depositare sequenze genomiche sequenze nucleotidiche sequenze proteiche per anotarle eccetera eccetera eccetera semplicemente mettono tutto questo in un contesto che omogeneo rendendo faccia a loro ricerca e rendendo appunto più visibili facendo e menaggiare quelli che sono i dati relativi al coro quindi ad esempio il covid data portale i dati sono organizzati in varie categorie che vedete qua sopra quindi esempio sequenze nucleotidiche genomiche del virus piuttosto che dell'ospite eccetera eccetera e quindi ognuna di queste pagine ognuna di queste sezioni alla fine si appoggia come vedete qua su risorse su ripositori che ci sono già quindi genomi virali si appoggiano su l'inae genomica dell'ospite quindi degli esseri umani si appoggia sui ga la trascrittomica si appoggia sull'expressio atlas la proteotomica si appoggia quindi fondamentalmente quello che si trattava di fare è quello di fornire un cappello a questo tipo di dati che rendesse il tutto omogeneo e rendesse più facile la vita e la dei ricercatori di chi è interessato questo tipo di e altro aspetto del covid data portale è che poi ci si è resi conto abbastanza presto che comunque anche loro facevano fatica a raggiungere a fare emergere molti dati che vediamo prodotti a livello locale nei vari paesi di rinali e quindi si sono abbastanza da subito prodigati a cercare di coinvolgere le realtà locali affinché assieme al dataporta principale nascesse le dataporta locali con appunto la funzione di essere più vicini alla produzione del dato locale poter andare incontro a chi produce a chi vuole condividere i dati a livello locale e quindi piano piano sono nati vari covid dataporta nazionali tra cui il nostro e quindi fondamentalmente fare questo questo covid-19 dataporta l'italiano alla fine si è rivelato la soluzione migliore per quello che noi ci proponevamo di fare perché è comunque uno strumento che ci consente di aumentare la consapevolezza delle persone e dei ricercatori rispetto a queste tematiche ci permette di disseminare di pubblicizzare linee qui da best practice eccetera ci permette di fornire un canale per supportare chi ha questi dati e intende condividerli ci permette di offrire una vetrina per chi voglie sporli voglia esporre la propria ricerca i propri dati per i progetti anche i propri servizi perché a volte anche i servizi per la ricerca sono estremamente importanti e a volte si fa fatica trovarli se non si è pratico un centro che metta insieme comunque delle expertise in cui ci si possa anche incontrare confrontare il tutto in contesto europeo che appunto quello del covid-19 e quindi io fondamentalmente sto concludendo volevo solo segnalarvi a questa pagina che fa parte del covid-19 dataporta europea questa open letter in cui potete leggere ancora una volta di più spiegato da eminenti scienziati molto più mienti di me perché è importante fare questo e quindi se volete naturalmente siete benvenuti a firmare questa lettera aperta e poi volevo puntare al fatto che questo modello si sta rivelando abbastanza vincente anche quando come c'è fatto vedere Matteo prima la situazione sta migliorando voglio dire che sia solo marito nostro però un pochino che sia anche marito nostro che in italia situazione sta migliorando ci ci voglio e ci vogliamo credere e quindi anche sentendo i colleghi europei quello che si vuole fare andare nella direzione che questo tipo di modello adesso va bene per il covid ma possa poi essere sportato anche ad altre patologie d'artigliuschia e niente io volevo chiudere ringraziando voi che ci avete ascoltato ingraziando tutte le persone sono faccio nomi perché sono troppi poi magari lo fa anche marco inutile che ringraziamo le stesse persone di 3 tutti quelli che hanno collaborato a mettere in piedi a rendere vivo portare tutti quelli che vorranno contribuire ma andandoci ai loro dati segnalandoci loro dati le loro ricerche i loro servizi eccetera eccetera e grazie fredderico per questa presentazione io mentre si prepara marco faccio vedere a tutti intanto il risultato del della domanda che abbiamo lanciato all'inizio della tua presentazione se vuoi fare un commento mentre marco si si prepara o anche gli altri allora sì mi fa molto piacere che chi abbia dati abbia un forte desiderio di condividerle ovviamente questa è una cosa molto positiva vedo che molti sanno anche come farlo non tutti e per quelli che non sanno come farlo venite da noi il data portal esiste anche soprattutto forse no però anche per quelli per aiutare per offrire un servizio per aiutare chi li ha condivideri dati ho a disposizione tecnologi di condivisione beh qua è una domanda un po' generica perché tecnologia di condivisione dipende anche dal tipo di dato da cosa vuole condividerle o no però anche qua invito chi magari abbia dei dubbi a contattarci e le regole mi permette di condividerla beh qua qua in realtà si apre abbastanza un vaso di pandora perché ad esempio se sono dati dell'ospite non è detto che le regole ovviamente permetto di condividerlo però anche lì ad esempio l'ig è fatto apposta per condivideri dati umani e quindi ha tutta una serie di protezione per rendere i dati come si usa a dire as open as possible bat as close as necessary quindi non è detto che rendere condivideri dati sia sinon di rendere le pubblici condividero vuol dire assolutamente non è sinon di rendere pubblici vuol dire condividerli con altri che possono beneficiare dall'utilizzo di quel dato comunque anche per per questo tema invito eventualmente chiunque abbia dubbi a contattarci grazie federico intanto vedo che marco è pronto io se nessun altro ha commenti da fare interrompolo a condivisione del mio schermo e passo quindi la parola a marco secondo che si iniziare la mia condivisione di schermo perfetto bestia vedere la presentazione perfetto grazie perfetto buon poverigio a tutti ringraziare emma tutto cnr per l'invito questo ciclo di ciclo di seminari sono marco carraro appunto degli stagli studi padova e sono il progetto coordinator per l'implementazione italiana dell'iniziativa covid-19 data portal il contesto già stato ampiamente introdotto da Matteo e Federico le cose la mia presentazione ci focalizzeremo su tre aspetti principali del del portale italiano questo è il processo che ha portato alla sua creazione già introdotto in realtà dai precedenti speaker andremo sicuramente a mettere le mani su quello che è l'arte del portale per un breve è un breve tour di cosa potete trovare l'intero della questa risorsa e concluderemo con una breve overview su quelle che sono le prospettive future su questa risorsa il contesto nel quale nasce questa disigenza di creare un portale europeo un portale italiano per i covid desigenza la discussione inizia all'interno dell'unione europea già nel corso della prima della prima ondata scusate e qui abbiamo due abbiamo messo due interviste che rappresentano quello che era la sezione del programma italiano a circa april del ano scorso quindi di fatto nel corso nel corso del piccolo della prima ondata abbiamo intervista al professore saccaquua la quale si stia neanche in i database mondiali delle sequenze virus pochissimi a quel tempo erano i campioni italiani per l'interesse del professore se in questo caso riferire a g6 e ad april su circa 10.000 campioni solamente 40 erano italiani intervista a vincenza colonna cnr di metà giugno quindi due mesi dopo che è quindi fatto nella coda inizio della coda della prima ondata riferendosi a gbank la evidenzia con la situazione non sia fatto cambiata in due mesi la situazione risultava essa circa la stessa 24 sequenze depositate e se non sbaglio 69 su g6 nel di fatto la pausa estiva col inizio di quella che era gli albori quella che ha la seconda ondata come ha introdotto federico all'interno di elix in italia si comincia a chiedersi quelle fosse quindi verso il septembre ottobre del 2020 quelle fosse la situazione se la situazione fosse di nuovo fosse migliorata drasticamente migliorata se la situazione fosse di nuovo quella della della prima ondata per cercare appunto poi di capire come poter poter agire e eventualmente mitigare questa situazione non fatevi ingannare dalla scala logaritmica come potete vedere a ottobre 2020 dati di 6 abbiamo tra i top player mondiali che sono ovviamente di ragnunito gli stati uniti e l'australia che di fatto la fa la parte leone in particolare gli ragnunito con il loro progetto di sorveglianza genomica ha iniziato ancora nel corso della prima ondata i quali presentavano all'interno del base di riferimento l'ordine decino in migliaia di sequenze in particolare sequenze virali la maggior parte dei paesi europei invece presentava una situazione relativamente simile a quella italiana chi più chi meno con appunto due ordini di grandezza inferiori di genomi genomi condivisi quindi sull'ordine di qualche centinaia situazione particolarmente gravata dal fatto che questi questi dati venessero condivisi con estremo di tardo media 200 giorni dall'isolamento del campione alla condivisione la condivisione di dati 200 giorni circa sei mesi ok di media nel costo prima ondata fino appunto inizio alla seconda data la condivisione dei campioni misurati quando venivano condivisi situazione oltre modo oltre modo complicata dal fatto che i sequenziamenti i sequenziamenti non avvenivano in mobile informe nel tempo nello spazio siamo particolarmente legati a questa a questa slide che è l'infografica di un tool che abbiamo realizzato utilizzavamo utilizziamo tuttora per supportare quella salvaglianza genomica questo questo infografica rappresenta con la situazione fine fine dicembre 2020 potete vedere la situazione nel tempo insieme come ci fosse stato effettivamente un inizio di salvaglianza genomica veramente un degli albori salvaglianza genomica nel corso da prima ondata poi di fatto il sequenziamento fosse interrotto nel corso di tutta l'estate e fosse poi inizialmente ripreso nel corso della parte iniziale della seconda ondata dicendo però dicembre 2020 con così grande gap temporale tra l'identificazione di isolamento dei campioni e la condivisione dei dati a dicembre è in realtà sostanzialmente impossibile capire che cosa stava succedendo cos'era successo nel corso del ministro la seconda ondata in quanto infatti i dati magari prodotti non erano ancora disponibili segnalo ricordiamo ricordiamo quei momenti di dicembre 2020 quando di fatto per la prima volta l'interna del nostro delle nostre due disolianze genomica appare per la prima volta quella che è la variante inglese che è rappresentata in questo grafico e la quale sappiamo caratterizzerà tutta quella che la storia della seconda della seconda ondata e la pandemia. Questa è una slide che abbiamo condiviso l'interna rappresentazione nei dai coordinatori dei portali europei internazionali ovviamente come sappiamo le cause di queste situazioni sono molteplici per quanto riguarda il sistema paese. Dalla parte abbiamo il fatto che la ricerca in particolare ambito clinico è coordinata molto speciale in termini singoli istituzioni, singole regioni e questo è particolarmente vero per quanto riguarda i dati genomici su covid 19 in quanto sappiamo che la maggior parte dei sequenze vengono all'interno di studi profilattici di compitenza regionale. Abbiamo una mancanza di facilities di ricerca, facilities di sequenze al mento che possono agire a livello nazionale. Inoltre abbiamo come è noto in nostro paese un'imitata sensibilità, non sempre c'è sensibilità a sistemi dell'open science sul data management data stewardship. Questa situazione porta quindi a un'efficiente duplicazione degli sport in un panorama già caratterizzato come sappiamo da una situazione non superfluorida per quanto riguarda la parte di finanziamento. All'interno di elix in Italia quindi fin settembre, ottobre e venti, venti ci si pone la domanda su come poter andare a mitigare questa situazione e ci potizza che l'istituzione di un'istanza locale, quindi l'italiano di un covid a tapporte, potesse essere la via. Abbiamo iniziato innanzitutto a definire quello che era un project charter e quindi il nostro obiettivo principale era quello di aumentare il numero di genomi sequenziati in Italia nella taveri di riferimento. Quando a settembre, ottobre, me la ragionavamo, possiamo di raggiungere un livello paragonabile con gli dati del paese europeo fosse una meta, da oggi sappiamo che le direttive indicano, le espraxie indicano di sequenziare circa il 5% dei casi positivi, se non sbaglio Matteo nella sua presentazione interruceva che nonostante l'istituzione sia drasticamente migliorata per quanto riguarda l'Italia siamo oggi a 5 per mille, ok, magari Matteo potrebbe ripetere questo dato, conformarmi questo dato. Come raggiungere questo obiettivo attraverso due sottoobiettivi, quello di aumentare l'utilizzo delle piattafore in pubbliche di high performance computing, che per me citiamo Laniachea, platform Galaxy di Strelix in Italia, e attraverso l'istituzione di quello che era il distanza locale del Covid data portal. Obiettivo era quello di andare online e intorno al inizio 2021. Per affinché questa iniziativa potesse in qualche modo mitigare lo stato che abbiamo visto in precedenza, ci siamo direttamente risiconto che questa iniziativa potesse assolutamente aveva un effetto nel caso in cui i top players nel settore di ricerca e nel settore della clinica italiana fossero a bordo di questo progetto. Abbiamo quindi avuto grazie al ruolo federativo di Elixir Italia, siamo in grado di avere a bordo l'istituto superiori, representanti di istituto superiori di sanità del consorzio GAR, CNR, in particolare qui rappresentato da l'istituto IBM, l'istituto ITB, e per quanto riguarda la componente universitaria, in particolare nella fase iniziale, abbiamo avuto il supporto da quella che è una delegazione dell'Università di Roma Torbergata, Milano Assattale, l'Università degli Studi Padova, l'Università degli Studi di Torino e della Tusccia, nelle quali ripeto qui processo di tipo federativo Elixir Italia ha un ruolo centrale. Timeline che ci siamo dati in inizio al progetto era quello di andare online con con con il portale per gennaio 2021. Si è iniziato con the initiation phase, che abbiamo definito appunto lo stato dell'arte e con delle slide che abbiamo stato in precedenza, hanno confermato appunto la decisione di questa iniziativa, abbiamo definito quelli che sono i goal e le tempistiche e le modalità con le quali vorremmo realizzarli, tra i principali milestone, quelle che è realizzazione di una beta del portale, realizzazione di definizione di quali sono i contenuti del portale, quali chiesto parecchio tempo, parecchio lavoro, e sicuramente la migrazione di questi contenuti all'interno della versione alfa del portale. Proceso che si è concluso in realtà un mese dopo di quello che è la nostra spedattiva a fine gennaio 2021. C'è deciso da una scelta consapevole di posticipare la pubblicazione del portale assolutamente a gennaio, in quanto proprio fino a dicembre 2020 e inizio gennaio 2021 era un periodo di fermento per quanto riguardate Covid, con l'arrivo in Italia della variante inglese e quindi tutta una serie di discussioni su come potere far fronte anche dal punto di vista della sovvedianza denomica all'arrivo di questa variante e successiva variante. Un altro task molto importante è stato quello di cominciare a lavorare su delle pipeline e su delle prove di sottomissione di dati particolari genomici e le interno database di riferimento. Questo ci permette oggi di poter fornire con la conservazione di supporto di help desk a chiunque abbia dati, ma per esigenze, per mancanze di tempo, per mancanze di capacità non è in grado di procedere alcuni visioni di questi dati. In questo modo il portale va online il 1 febbraio 2021. Andiamo ora a vedere, ok, a mettere le mani davvero sul portale, andiamo a vedere quello che è lo stato dell'arte, quello che potete trovare su Google su Googleata e Covid in IT in Data Portal in Italia. Un slide su quella che l'infrastruttura ET dietro questo sito, detto questa piattaforma, principalmente i contenuti all'interno del portale sono generati all'interno di Google Drive o di Google Doc, si è ovviamente convertiti in linguaggio Markdown e poi abbiamo tre sezioni, in sezioni di development, in sezioni di staging, in sezioni di produzione, il sito è avuto sul framework Ugo, abbiamo abbastanza sui tecnicismi, il tutto è ospitato, le pagine sono generate all'interno di un deposito di GitHub privato all'interno degli ITV vari e sicuramente questi vengono sicuramente trasferiti all'interno di GitHub sul consorzio UnGar, in cui si fa un mirroring su tre nodi, e quali ospiti vengono invece il sito di produzione. Nota importante prima di andare veramente a vedere cosa potete trovare l'interno del portale. Giafe di Ricco per introdotto questo argomento ma vorrei sottolineare nuovamente. Capita a volte, quando presentiamo cosa è il nostro portale, il portale è che si va incontro a una confusione, un piccolo cortocircuito, ovvero si pensa che il portale sia un database, ovvero io e i miei dati, vado all'interno di questo sito, c'è un bottone scritto upload your data, i dati vengono la caricati. Questo non è il portale, se vuoi accedere al portale, la prima frase di trovare è definire che il portale fornisce informazioni, linee guida, strumenti e servizi per supportare i ricercatori nel processo di creazione e condivisione dei dati. Questa è esattamente la filosofia con i quali il portale hub, il portale europeo e gli stanzi nazionali sono stati creati. A inizio di pandemia ci trovano le nostre azioni per cui bisognava in breve tempo fornire delle risorse efficienti e rodate per la condivisione dei dati. Queste risorse, in realtà c'erano già, è una risorsa che da anni ci permetteranno di condividere e di accedere i dati della ricerca scientifica, come per esempio DNA, European Genome Archive, la PDB Europe, Uniprot PDB, PDB Europe, Intact eccetera. Qui si è da una parte voluto evitare di rimentare la ruota, dall'altra parte hanno queste risorse che erano già in piedi, già perfettamente funzionanti, che potevano essere utilizzate. Il ruolo in particolare dei portali nazionali, come diceva Federico, è quello di, effettualmente di broccering, quello di mobilitare i dati in quanto c'è scomportare vicino alle esigenze di ciascuna, di ciascun paese, supportare il processo di mobilitazione dei dati verso queste risorse di riterimento. Inizialmente, in realtà fino a oggi, ci siamo concentrati su quattro tipologie principali di dati, quelli che ne definiamo data types. Questo principalmente perché per una semiglianza con gli altri paesi, con gli altri portali, con gli altri portali, con il portale Hub, e anche perché abbiamo impozziato questi potessi essere i dati principali, se potessi essere interessi, potessi essere interessi all'amito di la ricerca su Covid. Genomica trascrittomica, dati sulle proteine, dati di imaging e dati sanitari. Utilizzerò ora, per navigare il portale, l'esempio di dati genomica trascrittomica. All'interno del portale, se aprita il menu genomica trascrittomica, si apre un minuto in vina con tre opzioni disponibili. Con queste tre opzioni cerchiamo di andare a coprire il più possibile quello che è il cosiddetto Research Data Management Life Cycle. Abbiamo impozziato tre casi d'uso differenti. Il primo caso è quello di un ricercatore che ha un cosito scientifico ad investigare e vorrebbe sapere se gli sono già dati che li può utilizzare, dati già condivisi per poter rispondere a questo cosito scientifico. Questo cosito viene carghettato all'interno della pagina per le nove dati disponibili su Covid-19. Il secondo caso è quello di un ricercatore laboratorio che ha prodotti dati. Invece avrebbe condividerli, ma per vari ragioni non sa come farlo o vuole sapere quali sono le principali inneguida su come farlo. Questa sezione è invece una sezione condivisioni dati su Covid-19. L'ultimo caso è quello invece di ricercatori, quali hanno un cosito scientifico, però vorrebbero il supporto per produrre o analizzare nuovi dati di ricerca e questa è affrontata alla sezione Servizi per la ricerca su Covid-19, se è struttura ovviamente è presente anche per gli altri tipologi di data type. Seguendo questi esempi ora vorrei spostarmi sul portale e farvi vedere quello per il caso genodica trascrittomica, quello che potete trovare. Questo è la schermata che vi appare quando accedete al nostro portale, in classiche sezioni, chi siamo, link al portale europeo, supporte e feedback per contattarci, per cosi di richieste di supporto. I 4 data types, una sezione dedicata agli eventi, eventi seed training che eventi di incubativi, come esempio l'evento di oggi è listato all'interno di questa sezione, una sezione dedicata agli highlights nelle quali noi, mensilmente e anche con frequenza maggiore, mettiamo i rapporti sulla strada della condivisioni di dati in Italia e sulla sorveglianza genomica in Italia e poi abbiamo una sezione dedicata alle quattro tipologie di dati con i menu che vi parlavo in precedenza. Andiamo ora a aprire le tre tab. Cominciamo con i dati disponibili su covid-19. All'interno di questa sezione possiamo trovare tre sotto sezioni differenti, risorse di riferimento, risorse presso gli european COVID-19 in data portal e risorse sviluppate in Italia. Le sorse di riferimento sono di fare tutte le risorse in go to place per, da una parte, condividerata parte, ritrovare dati condivisi su covid-19. In particolare, vedete, i grandi classici abbiamo European Nuclear Tide Archive, european film, genome film Archive e altre risorse con l'altra scolla sezione dedicata a covid-19. Abbiamo sicuramente le risorse che, che magari non sono listate all'interno di queste risorse, di riferimento all'evento nazionale, ma sono disponibili all'interno di l'european COVID-19 in data portal e poi una sezione dedicata a quelle che sono risorse sviluppate in Italia. Successivamente abbiamo invece una sezione che noi chiamiamo crowdsourced, ok? Abbiamo quello che è il frutto di un'iniziativa di mappatura del parlamore di ricerca italiano sul covid-19. In particolare questa iniziativa è iniziata poco dopo il premiere release del portale, ma è entrata nel vivo di fatto da questa settimana, ok? Questa parte che non lo stiamo vista visualizzando è una parte nuova del sito online, sostanzialmente, da inizio settimana. Nella quale, appunto, si cerca di mappare quelli che sono i dataset proti di ricerca in Italia e quelli che sono i progetti di ricerca italiani sul covid-19, quelli sono pubblicazioni e preprint su covid-19 e tutti questi dati sono raccolti dalle vostre segnalazioni, ok? E qui, attualmente, queste sezioni risultano essere ancora relativamente poco popolata, nonostante l'iniziativa abbiamo iniziato da poco, ma abbiamo bisogno del vostro supporto per segnalare questi progetti di risorse. L'obiettivo del portale, infatti, come c'è andata Federico, è quello da una parte di cercare di creare simergie e aumentare l'impatto della ricerca sul covid-19 in Italia. Seconda sezione, secondo caso, diciamo, che vi ho presa nella precedenza, condivisioni data sul covid-19, questo caso risponde a una sezione in cui, appunto, un ricercatore, un laboratorio adidati vorrebbe condividerli. Abbiamo una sezione dedicata in metadati, in particolare per conto di qua nella regionomica trascrittomica, i repository di riferimento e alla fine di nuovo una sezione dedicata al crowdsource. Sappiamo, infatti, che per diverse ragioni in alcuni casi non è possibile applaudare i dati di ricerca all'interno dei repository di riferimento e questi dati vengono stoccati all'interno dei repository locali. In questo modo siamo cercati ad avviare in una campagna di mapping di questi repository locali per far sapere come questi dati esistono, che magari possono essere stati dati chiusi, possono essere stati accesso controllato, che probabilmente magari altri ricercatori, anche solo sapendo l'esistenza, possano magari contattarvi e magari insieme avviare un progetto di collaborazione. Ultima sezione, servizi per ricerca su Covid-19, di nuovo, abbiamo alcuni servizi forniti da Elixir in Italia e poi di nuovo i servizi proposti anche in questo caso, raccogliate la sezione di crowdsource. Questo mi vuole tornare al homepage e dove abbiamo questa sezione contribuisci, per cui potessimo adarci queste risorse, semplicemente cliccando su questi link, avete accesso un form e non in real time, ma dopo un previsto processo di approvazione più calto formale, la vostra segnalazione viene caricata all'interno del portale. Nel caso in cui vogliate accedere a tutte queste operazioni di mapping, puoi andare all'interno della sezione ricerca, quindi l'iniziativa alta destra, e qui vuole trovare tutte queste risorse. Facciamo il caso di un ricercatore che voglia, per esempio, sapere se esistono sistemi ricercatori che stanno lavorando su Covid-19, su Imaging a Brescia, per esempio. Ecco che, per esempio, potrebbe contattare al Professoressa Borroni e eventualmente iniziano la collaborazione. Torno alla presentazione, abbiamo diciamo del vostro supporto per questa operazione di mappatura. Vi ringraziamo per tutte le segnalazioni che vorrete inviarci. Statisti che utilizzo, oggi abbiamo più di 2.500 utenti unici che hanno avuto accesso al sito, una sorpresa che la maggior parte siano italiani, dalle principali città, nelle quali sono le caldità di distruzione di ricerca, quindi Roma, Milano, Barina, Apolli, Torino, Pado e Bologna. Quali sono le principali pagine qui accilendano gli utenti, ovviamente la homepage, i dati genomiche trascrittomiche e tanto pare anche le sezioni highlights, quindi diciamo che il portale non ha solo una funzione di un focus sul ricerca, ma con un focus tipo divulgativo, da quello possiamo ritrovare queste statistiche. Andiamo ora a parte conclusiva di questa presentazione, prospettive e future. Abbiamo delle nuove attività che in realtà non erano ipotizzate al miglio del progetto, è quella che è la sorvegluenza genomica tramite le infografiche che abbiamo fatto vedere precedentemente. La participazione e il continuo update con gli altri nodi nazionali europei e internazionali dei convidati a portal, l'operazione di mappatura della comunità di ricerca e da partire di fatto da inizio mese abbiamo aperto anche un servizio di submission help desk, qui abbiamo già due contatti, siamo già superando le istituzioni che sono area science park e il culto origine Elena per quanto riguarda questa missione, in questo caso dati genomici virali all'interno delle risorse di riferimento. Fondi supporto come accennava Presidente Federico, il portale e i progetti, questi progetti di spin-off, sono creati e mantengono totalmente in kind. Di fatto ad oggi non abbiamo ricevuto nessun finanziamento per supportare questa iniziativa. Abbiamo partecipato a due call, a partire a call eosclife, abbiamo superato la prospettiva selezione a due step, abbiamo superato la prima selezione tecnica con far una della bontà del progetto, non è andato a un fine finanziamento per differenti ragioni, sicuramente il nostro progetto non era cento per cento in linea con l'obiettivo di questa call, ne basta con quella pena provare e dall'anno scorso siamo in attesa di sapere qual'è l'esito del finanziamento invece della call Miurefizr, la call chiamata Covid fastrack, 21 milioni di euro per il supporto a ricerche di impatto con i risultati in tempi rapidi su quello che è appunto la pandemia, sottomissione in bio dei progetti fine maggio 2020 attesa di risultati giugno 2021. Siamo ancora in attesa di sapere quali sono i risultati di questa call. Supporto, ne abbiamo ricevuto molto in realtà da aver l'accomunità internazionale Embole BI, che ha trovato ampli linee di finanziamento per questi progetti di progetti, Elixir Sweden e più di 20 contributori che in vari modi hanno lavorato del progetto. Vi invito a visitare la sezione About Us del progetto per dare giusto creato a tutti coloro che in modo volontario stanno dedicando e dedicato il loro impegno alla costituzione di questa risorsa. Con questo, ah, un'ultima slide per cerebrare quello che è un anno, dal nascito di questo progetto. Inzo apriesto il compleanno dell'iniziativa Covid-19 data platform, ok, quindi già un'iniziativa ancora più, anzio respiro rispetto ai data portal, che abbiamo Maria Gabriel, il comissario europea per l'innovazione della ricerca, il su tweet a festeggiare i grandi risultati ottenuti dall'iniziativa Covid-19 data portal, ai quali ha contribuito, senza altro, anche il portale italiano. Con questo concludo mia presentazione e vi ringrazio. Grazie Marco. Io invece vi mostro tra un secondo lo schermo del Mentimeter, perché abbiamo già, i relatori hanno già risposto alle domande che sono arrivate nella parte di domande risposte di Zoom, quindi se avete fatto una domanda potete andare a leggere la risposta e invece qui possiamo raccogliere le domande per questa parte di di discussione. C'è già una domanda che era stata inviata in fase di registrazione, quindi ve la leggo, nel frattempo che i partecipanti si preparano eventualmente a inserire altri commenti o altre domande, come si prevede che i singoli gruppi contribuenti possano fare data mining sul portale, quali regole per l'utilizzo dei dati, quindi forse Marco se vuoi iniziare a rispondere e poi vediamo se gli altri hanno... Veramente penso che forse Matteo e Federico possano supportare questa risposta. Sì, rispondo io, ma al momento, data mining può voler dire tante cose, al momento diciamo data mining nel senso se tu cerchi in particolare il data set, quello che conviene fare è cercarli su covid data portal, quello europeo, ok? Quello che offre il nostro portale al momento è un aggregatore di quelle che sono le risorse italiane, quindi più che cercare dati da noi, quello che puoi fare è vedere cosa si sta facendo in Italia per poi magari andare a parlare con le persone che lo stanno facendo a livello locale, se invece proprio vuoi fare data mining dei dati, cioè vuoi cercare dei dati, sape che soddisfano le premiate criteri eccetera, gli strumenti per farlo noi al momento non ce l'abbiamo, però gli offri portale con bene. Molto bene, vado avanti, c'è un'altra domanda sempre sul portale, quindi quali metà dati sono mandatari al momento di depositare il dato e quali no? Supongo che dipende anche dalla tipologia di dati? Dipende dalla tipologia di dati e dal se si è responsabile del trattamento, dal motivo o dalla delega che sia per trattarli. Ad esempio, se si è coloro e quali è stato firmato direttamente un consenso informato si possono sottomettare tutti i dati per il quali si è ricevuto consenso al trattamento. Nel caso delle sequenze genomiche, che sono l'esempio che conosco meglio, non è così poco frequente che un centro che esegue il tampone riceva il consenso informato per il trattamento dei dati, che sono anche dati personali, che includono sesso, stato di salute, età, luogo e data del tampone e che poi però il tampone per il sequenziamento del genoma del vivo si venga mandato in un centro di sequenziamento. Quindi, a seconda del fatto che sia il centro di sequenziamento che ha prodotto i dati o l'enteprimario che riarra accolti, il tipo di metadati che è possibile sottomettare sono diversi. Per quanto riguarda i dati genomici c'è un preciso worksheet del ENA che specifica quali sono i metadati minimi per sottomettare una sequenza genomica del virus e in realtà non sono moltissimi proprio per questo motivo, perché molte volte chi sottometta le sequenze genomiche è il centro di sequenziamento e non con lui che è raccolto primamente i dati. Quindi al di là della posizione geografica in cui i dati sono stati prodotti, la tecnologia di sequenziamento e la sequenza stessa e pochissimi dettagli in verità su come è stata prodotta non ci sono altri metadati obbligatorie al momento. La cosa può cambiare anche a seconda del database che si considera. Noi suggeriamo sempre per i dati genomici del vivo di sottomettare a ENA che rende i dati completamente pubblici disponibili per tutti e anche vero che la risorsa più utilizzata in questo momento per essere trasparenti è il portale g-said che immagino tutti conosceranno, quindi in realtà si accede con la restrizione che si può accedere ai dati, si possono sottomettere i dati ma non si possono redistribuire i dati altri. Quindi si può accedere per farci ricerca ma non si può redistribuire i dati che ci sono dentro. Ora aggiungiamo dettagli su queste ultime parole di Matteo. Molto spesso quando parliamo con i nostri colleghi, parliamo della condivisione in dati in particolare genomica di Covid ci viene detto che sì, i dati sono stati condivisi all'interno di g-said e quindi sono già condivisi. Questa in realtà è un po' un lavoro a metà perché come potete vedere ho fatto caso alla slide, abbiamo condiviso con infografica sulla sorrigenza genovica in Italia, quella slide in teoria non potrebbe i dati, non potrebbero essere condivisi perché sono dati ottenuti da g-said di quale non ci dà il permesso di utilizzare quei dati. Quindi fatto condividendo i dati su g-said è un po' lavoro a metà per chi è autorizzato in realtà a gestire intorno a quei dati. Quindi souteniamo se avete la possibilità, se i vostri polisi vi permettono, condivideteli anche all'interno di i, n e i o g non fino a archive. Molto bene, c'è un'altra domanda sui dati aggregati e non, quindi c'è la possibilità di avere dati non aggregati? A quanto risulta me, dato che sono esperto dai dati genomica, fatto di dati genomici, i dati genomici in un momento attuale consistono nella sequenza ricostruita di ciascun singolo strain del virus che è stato mai visto e sequenziato. Quindi a questo solitamente associato un enorme tabella di diversi formati con tutti i metadati che sono stati depositati da coloro che le hanno depositati. Torniamo all'esempio precedente, data di esecuzione, data di campionamento, tipologie di sequenziamento, metodi che sono stati utilizzati, ma la gran parte dei dati che vengono esposti dal portale almeno da questo punto di vista che poi non sono nel portale ma vengono esposti e sono in un altro database, al momento attuale non sono aggregati. Anzi a me piacerebbe proprio che fossero aggregati perché così non doveri analizzarmi di tutte le volte per vedere cosa è cambiata nell'ultimo mese. Però il momento attuale questo è stato dell'arte. Per quanto riguarda invece la sezione relativa a health data e relativa a imaging, i dati che sono pochi all'interno del portale, che è stata di condizionata nel portale, in realtà sono in forma non aggregata, quindi sì, senz'altro. Molto bene, io vado avanti, c'è un'altra domanda. Intanto vi ricordo che per inserire altre domande, quelle che vedete in parte sono state ricevute in fase di registrazione quindi le abbiamo aggiunte qui per mostrarle a tutti. Potete andare sul sito www.menti.com e usare il codice che vedete qui in cima a questa slide, quindi 98666535 è lo stesso link a cui che avete utilizzato per rispondere alle domande che invece abbiamo posto noi a voi. Intanto leggo questa domanda. Nel portale potranno essere registrati anche studi in ambito veterinario, quindi epidemiologia SARS-CoV-2 in gatto di colonia. Sì, allora essendo un noto gattaro rispondo io. Ovviamente lo studio nel senso il paper, la pubblicazione può tranquillamente essere sottomessa al portale in quanto parlo di SARS-CoV-2 se ci sono altri tipi di dato, che ne so, sequenze del virus che è stato dentro al gapo, non lo so. Ci sono. Cosa si intende? Anche quelle, naturalmente anche quei dati se possono essere. Quelle ci sono in Italia e abbiamo due o tre esempi di colonovirus che hanno infettato dati. C'è quello più famoso poi invece venire in una tigra dello zoo di New York. Comunque ci sono. Allora, intanto rispondo io invece a questa domanda pratica, le slide saranno disponibili dopo questo webinar su Zenodo. Le linkeremo anche sulla pagina di Open Air che descrive il ciclo di eventi. Quindi le troverete a breve insomma alla fine di questo webinar. Probabilmente domani sulle su Zenodo tutte insieme e linkate poi nella pagina di Open Air. C'è questa domanda di sulla accessibilità del dato da parte dell'industria farmaceutica, ad esempio per sviluppare nuovi vaccini resistenti alle varianti e con relazione dato brevetti. Questo mi sembra anche più un commento cioè se i dati sono accessibili anche da parte dell'industria farmaceutica per quindi motivi scopi commerciali e poi quindi il fatto che questi possano poi essere utilizzati per fare dei brevetti. Dico qualcosa io poi magari non so se vuole dire qualcosa anche per un altro. Per quanto riguarda i dati che vengono depositati nei repositori pubblici quindi i nomi virali che vengono sottomessi a DNA, quelli sono pubblici, chiunque può accedere, incluse le industrie farmaceutiche. Altri tipi di dato, ad esempio dati umani, i dati dell'ospita vengono sottomessi agli GAI, ci sono delle regole di accesso e quindi poi ognuno ha il proprio data set, mette poi le regole che in base alla policy, in base alla legge, in base a tutto quello che volete hanno senso, quindi anche qua dipende dal tipo di dati, i dati in piedi miliologici che forniamo sono quelli che fondamentemente fornisce ISS e quindi sono dati pubblici, quindi dipende dal tipo di dato e in generale non è che c'è una preclusione di si ferma certi che sono cattive oppure non gli idiamo perché loro ci c'è danio. La cultura del dato aperto è cultura del dato aperto in generale, grazie a tutti. Molto bene, dunque io ho visto che le altre domande erano più o meno molto simili quindi anche su quali ontologie, quali standard vengono usati nella descrizione, domande sulla previa se le proprietà del dato è difficile credo rispondere, non so se volete fare un commento sulla privacy e sulla proprietà dei dati contenuti nel portale. Stasso lì scorso di prima, in generale poi quando si parla di proprietà del dato, secondo me si va sempre in un territorio un po' difficile perché data di chi lo produce, di chi l'ha pagato, di chi è il dato, quindi da mio punto di vista che è probabilmente estremamente naif se un dato è stato prodotto con soldi pubblici al netto di quelle che sono le protezioni legali, quindi se stiamo parlando di dati di umani, no ovviamente ci devono essere delle protezioni, sono dati di paziente eccetera, ma tutto quello che non rientra in questo contesto, se sono dati che sono stati prodotti da soldi pubblici devono essere dati pubblici, qualche modo, che poi magari in condizioni normali io produgo le dati e poi aspetto di pubblicare il paper prima di rendere pubblici in condizioni normali questo ci può stare e magari anche se non approvare lo posso capire in condizioni di emergenza come quella che viviamo io in una provo che sequenza 2.000 genomi di virus si tiene nel cassetto finché dopo 6 mesi il pubblico è paper, secondo me è una cosa che non va bene. Le indicazioni dell'organizzazione mondiale della sanità sono in quel caso di rendere pubblico almeno il preprint e poi per quanto a noi non piaccia in quel caso si potrebbero condividere se proprio non si vuole mettere in DNA i dati in G-said dove si potrebbero già vedere ma non sarebbero completamente riutilizzati da tutti. Un po' lo spirito di quell'altra banca dati è questo, è Renata anche per facilitare le case e fare una ciotica che se dovessero produrre dei dati se li vedrebbero protetti e non potrebbero portare fuori dal database. È un modello diverso però piuttosto di avere 0 dati è meglio avere dei dati limitati. Dunque io direi che abbiamo concluso le domande, ce n'è o è arrivata una ora e prima di leggerla vi ricordo che questa è una serie di eventi quindi se volete conoscere gli eventi che saranno organizzati da qui alla fine dell'anno in particolare quello sui dati epidemiologici e i due tutorial sui dati omici e sulla condivisione e la gestione del software quindi per anche l'analisi dei dati potete trovare tutte le informazioni sulla pagina dedicata al sito di open air. I webinar saranno prepublicizzati anche sulla pagina degli eventi del CNR e quindi troverete informazioni anche lì. Leggo l'ultima domanda prima di salutarci perché abbiamo leggermente sforato il tempo a nostra disposizione quali sono i contributi principali delle altre infrastrutture che trattano informazioni covid-19. Se volete rispondere voi intanto posso dire due parole su open air che ha a disposizione un gateway per il covid dove raccoglie le informazioni che sono contenute appunto sulla piattaforma di open air rispetto a dati software e anche pubblicazioni relative a covid-19, progetti della Commissione europea che sono stati finanziati su tematiche relative al covid. Se volete aggiungere qualcosa? No, è una considerazione all'alta voce, non mi è chiarissime che cosa si intende in senso lato per infrastrutture. Credo infrastrutture di ricerca, suppongo si riferisca a questo ma in effetti questa è una mia supposizione. Da quel punto di vista ovviamente non possiamo avere contenza di tutto quello che succede nel paese ma ci sono diversi iniziative ad esempio l'Istituto Superbiore di Sanità fa un monitoraggio molto attivo delle sequenze del genoma del virus e aggrega tutti i dati perché non c'è tempo per esplorare la cosa però quella è un'altra delle criticità del nostro paese, ogni regione produce i dati, i sistemi sanitari sono regionali ma poi qualcuno a livello nazionale deve aggregare tutti i dati regionali e capire cosa sta succedendo nel paese, quindi quella è una cosa molto importante che fa l'Istituto Superbiore di Sanità e a quello che mi risulta lo fa facendo anche delle salve e dei report mensili e lo fa pure quando vengono provate ad esempio delle varianti che potrebbero avere caratteristiche particolari facendo esperimenti in laboratori specializzati per capire se ci sono evidenze epidemiologiche per dire che determinate varianti del virus potrebbero essere più pericolose. Dal punto di vista dei progetti invece di ricerca su l'ospite il Ministero della Salute ha comunque attivi i suoi progetti in cui finanzi al sequenziamento di genomi umani, anche se non siamo direttamente coinvolti, ci sono anche con l'Europé dove si prevede ad integrare su più ampia scala questo tipo di dati. In realtà a titolo completamente gratuito o meglio non finanziato direttamente da alcun ente di ricerca nazionale europeo, c'è anche un grande progetto che si chiama Covid Human Genetica Effort dove si cercherà, si vuole, aggregare i dati genetici umani tra diversi paesi di persone che hanno sintomatologie diverse e capire se c'è una causa genetica ad esempio per questo. Dal punto di vista dei dati serologici so che ci sono progetti ma non è esattamente il mio ambito, ma l'idea a livello europeo rimane quella di asfidarsi all'ecosistema che è stato prodotto da MBL e BI dove in diversi database tutti questi dati si è associati allo stesso campione possono essere sottomessi. Quindi il modello ideale sarebbe quello di depositare nel database più valido per i propri dati i dati che vengono prodotti e cercare di tenere traccia dai vari campioni in quel modo è possibile pensare che in un futuro non troppo lontano per ciascun individuo che ha avuto il Covid potremmo avere in maniera completamente protetta, anonima e non tracciabile i dati serologici che tengono conto della seroprevalenza nel tempo, i dati del genoma virale, i dati del genoma dell'individuo se esistono e a quel punto se sono stati anche fatti experimenti di RNA sequencing per studiare il trascrittome in determinati momenti o in determinati eventi pure quelli. Quindi l'idea è di utilizzare tutte le infrastrutture che già esistono MBL e BI che permettono già di condividere i campioni. Il fatto è che questo lavoro di fare bene la condivisione, la notazione di tutti i campioni probabilmente deve diventare un lavoro e la data stewardship deve diventare un lavoro nel futuro per fare tutte queste cose. C'è spazio ma c'è anche necessità di avere persone formate per fare queste cose. Grazie Matteo. Io direi che possiamo lasciare quindi aperto l'ultima cosa che vi chiediamo e che vi lasceremo aperto anche tutta questa sera fino a domani quindi se volete lasciateci tre parole o tre concetti che vi hanno colpito oggi si formerà quindi in automati con word cloud questo è un esercizio che facciamo alla fine di ogni webinar per capire che cosa vi ha colpito e insomma condividere con voi anche questo risultato. Quindi io ringrazio tutti e possiamo quindi chiudere il webinar e vi aspettiamo per le prossime puntate. Grazie mille. Buonaserata.