Da quando nel 2003 abbiamo sequenziato per la prima volta il genoma umano, rivelando l’insieme di istruzioni del dna, non sappiamo ancora oggi a cosa servono effettivamente gli oltre 3 miliardi di lettere genetiche che lo compongono. Sarà proprio questo lo scopo della nuova intelligenza artificiale AlphaGenome appena sviluppata da Google DeepMind, che aiuterà gli scienziati a far luce sul genoma umano, costituito per il 98% da geni che non codificano proteine, ma che possono influenzarne l’attività. A parlarne è stato un articolo di Nature secondo cui il modello di AlphaGenome è ancora nella sua fase iniziale ed stato descritto in uno studio preprint il 25 giugno scorso.
Modelli di intelligenza artificiale
Ricordiamo brevemente che nel 2020 DeepMind presentando AlphaFold 2 aveva fatto un notevole passo in avanti per aiutarci a capire in che modo la sequenza di una proteina contribuisse alla sua struttura tridimensionale. Comprendere cosa fanno le sequenze di dna è, tuttavia, molto diverso, in quanto un singolo tratto di dna svolge innumerevoli ruoli interconnessi e non esiste perciò una risposta univoca. Gran parte dei modelli di intelligenza artificiale proposti negli ultimi decenni, come ricorda Nature, si è concentrato su un unico compito che prende in esame lunghi tratti di dna e prevede i livelli di espressione dei geni o determina come i segmenti di singoli geni, chiamati esoni, vengono tagliati e incollati in proteine distinte.
AlphaGenome
Per interpretare le sequenze di dna e prevedere quali effetti complessi hanno piccole alterazioni su una serie di processi molecolari, AlphaGenome è un modello che offre un approccio “all in”: può ricevere, infatti, input fino a un milione di lettere di dna ed effettuare migliaia di previsioni su molte proprietà biologiche. In molti casi le previsioni di AlphaGenome sono sensibili alle modifiche di singole lettere di dna, dimostrando quindi la capacità di prevedere le conseguenze delle mutazioni. In altre parole, quindi, si tratta di un tentativo di riuscire a rispondere a domande fondamentali su come le lettere del dna che cambiano alterano l’attività genica e su come le mutazioni genetiche influenzano la nostra salute. “Abbiamo questi 3 miliardi di lettere di dna che compongono il genoma umano, ma ogni persona è leggermente diversa e non comprendiamo appieno l’effetto di queste differenze”, ha commentato Caleb Lareau, biologo computazionale del Memorial Sloan Kettering Cancer Center. “Questo è lo strumento più potente finora disponibile per modellare questo fenomeno”.
Siamo solo all’inizio
Sebbene AlphaGenome sia stato addestrato su dati genomici e altri dati sperimentali provenienti solo da esseri umani e topi e non sia stato progettato né convalidato per interpretare in modo affidabile il genoma personale, “penso che sia un entusiasmante passo avanti”, ha commentato Anshul Kundaje, genomista computazionale presso la Stanford University di Palo Alto, in California. “Rappresenta un autentico miglioramento in quasi tutti gli attuali modelli sequenza-funzione all’avanguardia”. Per ora, Google ha affermato che AlphaGenome è disponibile per gli utenti accademici che svolgono attività non commerciali e prevede di pubblicare i dettagli completi del modello. Una versione più completa, che consentirebbe applicazioni più sofisticate da parte di entità commerciali, come le aziende biotecnologiche, è prevista per il futuro.