La genomica sarà la principale fonte di big data

La genomica nel prossimo decennio giocherà un ruolo determinante nell’ambito dei big data, campo fino ad ora caratterizzato dall’enorme mole di dati provenienti dal settore dell’astronomia e dei social media come YouTube e Twitter. Questo è quanto si legge sulla rivista PLoS Biology che pubblica un articolo sulle stime condotte da un gruppo di ricercatori dell’Università dell’Illinois di quanto la genomica potrà contribuire al mondo dei big data e dell’importanza di avere progetti integrati nel settore. Nel valutare poi, più in generale, il contributo ai Big Data atteso dalle Scienze della Vita legate alla Salute si dovrà considerare che la Genomica è solo una delle cosiddette scienze omiche, ciascuna delle quali genera comparabili dimensioni di dati!

Negli ultimi dieci anni i dati genomici prodotti giornalmente sono raddoppiati ogni sette mesi; secondo le stime dei ricercatori, con questo trend, nel 2025 potremmo arrivare a produrre e quindi a dover immagazzinare e gestire tra i 2 e i 40 exabyte (1018 byte) di informazioni all’anno. Il valore è stato calcolando il sequenziamento del genoma umano per un numero compreso tra i 100 milioni e i 2 miliardi di individui. A titolo indicativo è stato stimato che 4 basi equivalgono a 1 byte.

Una cifra sbalorditiva se si pensa che oggi YouTube registra upload di video per 300 ore al minuto, nel 2025 saranno 1.000-1.700 con un volume di archiviazione dati l’anno di 1-2 exabyte. Allo stesso modo Twitter, che attualmente conta su 500 milioni di tweet al giorno, tra dieci anni potrebbe avere 1,2 miliardi di tweet giornalieri, equivalente a un volume di archivio dati di 1,36 petabyte (1015 byte) all’anno.

Nello specifico della genomica i quattro punti chiave della questione saranno: l’acquisizione dei datil’archiviazionela distribuzione e l’analisi. L’esigenza più importante per sostenere la crescita esplosiva dell’acquisizione di dati genomici è il continuo sviluppo delle tecnologie di sequenziamento per ridurre i costi, migliorare la produttività e ottenere una precisione molto elevata. Gli attuali costi, di circa 1.000 dollari per il sequenziamento di un genoma umano, dovranno essere ridotti di almeno uno o due ordini di grandezza se si vorrà sequenziare il genoma di un elevato numero di persone, soprattutto per scopi medici. Sarà necessario iniziare a progettare e costruire data center con sistemi di archiviazione dati con velocità maggiori rispetto a quelle attuali di circa 2-5 ordini di grandezza per poter eseguire query e aggregare grandi collezioni di genomi e di dati omici. Per quanto riguarda la distribuzione di sequenze del genoma su scala di intera popolazione, la più pratica, e forse l’unica, soluzione è quella di utilizzare i sistemi di cloud computing che riducono al minimo lo spostamento dei dati e massimizzano la “federazione” di più sistemi di cloud. La comunità scientifica avrà quindi bisogno di sviluppare interfacce di programmazione delle applicazioni (API) per la scoperta e l’interrogazione grandi serie di dati su sistemi remoti. In fine, grazie all’analisi, l’obiettivo finale sarà quello di essere in grado di interpretare sequenze genomiche e di spiegare la relazione tra le mutazioni del DNA, i cambiamenti di espressione, o di altri sistemi molecolari, e le malattie, lo sviluppo, il comportamento, o l’evoluzione.

Ma la sfida dei prossimi anni non arriva solo dalla genomica, ma più in generale dalle scienze “omiche” (come ad esempio la transcrittomica, la proteomica, la metabolomica o lo studio dei microbiomi) che non sono ambiti e discipline statiche, ma si evolvono parallelamente all’evoluzione della ricerca. Diventano immediatamente evidenti le enormi potenzialità di sviluppo a cui ci troviamo davanti per il settore delle scienze della vita. Proprio in quest’ottica, i progetti integrati e la sinergia tra le varie discipline assume un’importanza cruciale, come sottolinea anche il Cluster Alisei nel suo piano strategico e ne evidenzia la necessità nei suoi 4 progetti di sviluppo. Il Cluster infatti si pone come elemento di elaborazione strategica, acceleratore del trasferimento delle conoscenze e delle tecnologie dal settore della ricerca multidisciplinare a quello dell’industria farmaceutica-biomedicale, nonché come facilitatore per l’attrazione di capitale pubblico e/o privato, indispensabile per lo sviluppo di progetti innovativi.

Il percorso che si prefigura nel prossimo decennio tuttavia non è semplice, poiché oltre alle difficoltà legate alla ricerca, come la necessità di gestire un’enorme mole di dati ed effettuare data mining sempre più raffinati, si dovranno definire anche le questioni etiche e sociali, quali ad esempio l’impatto sull’intero sistema sanitario. Questo nuovo scenario richiederà nuove professionalità e nuovi approcci, tra questi la definizione delle malattie da un nuovo punto di vista tassonomico: non più basato solo sui sintomi, ma fondato sulle mutazioni genetiche. È imprevedibile l’effetto sulla sostenibilità del sistema e sui costi, poiché alcune terapie salva vita saranno costosissime. Cambieranno inoltre i sistemi regolatori, saranno differenti le regole per immettere sul mercato nuovi farmaci (destinati a un numero limitato di pazienti) o nuovi macchinari.

L’approccio degli anni a venire dovrà quindi essere quello di creare un equilibrio tra i principi di libero accesso ai dati di sequenziamento del genoma e la corretta tutela della privacy, i diritti di proprietà intellettuale e quelli invece della società. Un percorso di armonizzazione che dovrà passare anche attraverso la reciproca comprensione della comunità scientifica e della società.