Supervised Machine Learning and ABC for population genetic inference

VIZZARI, MARIA TERESA

In this PhD dissertation I outline the work that I did over three years, which so far has led to the publication of two papers in peer-reviewed journals. All of these studies focus on the development of a new ABC framework, based on a machine-learning tool named Random Forest, that allow the analysis of complete genome datasets to make inference about the past evolutionary processes characterizing natural populations. Inferring past demographic histories is crucial in population genetics, and the amount of complete genomes now available should in principle facilitate this process. In practice, however, the available inferential methods suffer from severe limitations. Although hundreds complete genomes can be simultaneously analyzed, complex demographic processes can easily exceed computational constraints, and the procedures to evaluate the reliability of the estimates contribute to increase the computational effort. In this thesis I present an approximate Bayesian computation framework based on the random forest algorithm (ABC-RF), to infer complex past population processes using complete genomes. To this aim, I propose to summarize the data by the full genomic distribution of the four mutually exclusive categories of segregating sites (FDSS), a statistic fast to compute from unphased genome data and that does not require the ancestral state of alleles to be known. In Chapter 4 I tested how accurately the proposed pipeline allows one to recognize the true model among models of increasing complexity, using simulated data and taking into account different sampling strategies (in terms of number of individuals analyzed, number and size of the genetic loci considered). Once assessed the inferential power of the ABC-RF procedure, I finally analyzed high-quality whole-genome datasets, testing models on the dispersal of anatomically modern humans out of Africa and exploring the evolutionary relationships of the three species of Orangutan inhabiting Borneo and Sumatra. I then extended the framework making it able to deal with low-coverage complete genomes. The low sequencing depth drastically affects the ability to reliably call genotypes, thus making low-coverage data unsuitable for inferential approaches like ABC. In Chapter 5, I present the results of the power analysis carried out with whole-genome datasets sequenced at different coverage levels (from 1x to 30x). I evaluated the inferential power of this procedure in distinguishing among different demographic models and in inferring model parameters. Under this approach, the FDSS is not directly calculated from known genotypes, but rather estimated using genotype likelihoods, so as to take into account the uncertainty linked to low-depth data in the estimation of the pattern of polymorphisms, making the simulated data directly comparable with those observed in low coverage experiments. The inferential approaches presented in this thesis can be effectively used to analyze large panels of high- and low-coverage genomes from real populations, maximizing the information extracted from the data, in order to reconstruct complex past population dynamics.

Questa tesi riassume il lavoro di ricerca da me svolto durante i tre anni del dottorato, che finora ha portato alla pubblicazione di due articoli su riviste scientifiche. Questi studi sono incentrati sullo sviluppo di un nuovo framework ABC, basato su un algoritmo di machine-learning chiamato Random Forest, che consenta l'analisi di dati genomici completi per indagare i processi evolutivi passati che caratterizzano le popolazioni naturali. L’inferenza delle dinamiche demografiche passate è cruciale negli studi di genetica delle popolazioni e la grande quantità di genomi completi ad oggi disponibile dovrebbe, in linea di principio, facilitare questo processo. In pratica, tuttavia, i metodi inferenziali disponibili soffrono di gravi limitazioni. Sebbene centinaia di genomi completi possano essere analizzati contemporaneamente, i processi demografici complessi possono facilmente superare i vincoli computazionali e le procedure per valutare l'affidabilità delle stime contribuiscono ad aumentare ulteriormente le risorse di calcolo richieste per le analisi. In questa tesi presento un framework ABC basato sull'algoritmo di machine-learning Random Forest (ABC-RF), per inferire processi demografici passati, anche complessi, attraverso l’analisi di genomi completi. A questo scopo, propongo di riassumere i dati tramite la distribuzione genomica completa di quattro categorie di siti segreganti (FDSS), una statistica veloce da calcolare anche da dati genomici non fasati e che non richiede la conoscenza dello stato ancestrale degli alleli. Nel Capitolo 4 ho verificato con quanta accuratezza la pipeline proposta consenta di discriminare tra modelli di complessità crescente, utilizzando dati simulati e tenendo conto di diverse strategie di campionamento (in termini di numero di individui analizzati, numero e dimensione dei loci genetici considerati). Una volta valutato il potere inferenziale della procedura ABC-RF, ho analizzato diversi dataset di genomi completi di alta qualità per testare i modelli sulla dispersione degli uomini anatomicamente moderni fuori dall'Africa ed esplorare le relazioni evolutive delle tre specie di orango che abitano il Borneo e Sumatra. Ho quindi esteso il framework rendendolo in grado di gestire anche genomi completi a bassa copertura. La bassa profondità di sequenziamento influisce drasticamente sulla capacità di identificare in modo affidabile i genotipi, rendendo così i dati a bassa copertura inadatti per approcci inferenziali come ABC. Nel Capitolo 5, presento i risultati dell'analisi di potenza effettuata con set di dati genomici sequenziati a diversi livelli di copertura (da 1x a 30x). Ho valutato il potere inferenziale di questa procedura nel distinguere tra diversi modelli demografici e nell'inferire i parametri dei modelli. Con questo approccio, l’FDSS non viene calcolata direttamente da genotipi noti, ma piuttosto stimata utilizzando le genotype likelihoods, in modo da tenere conto dell'incertezza legata ai dati a bassa copertura nella stima del pattern dei polimorfismi, rendendo i dati simulati direttamente confrontabili con quelli osservati in esperimenti a bassa copertura. Gli approcci inferenziali presentati in questa tesi possono essere efficacemente utilizzati per analizzare ampi dataset di genomi ad alta e bassa copertura da popolazioni reali, massimizzando le informazioni estratte dai dati, al fine di ricostruire complesse dinamiche di popolazione passate.