Scalable, probabilistic, and explainable Machine Learning

Gentili, Elisabetta

Nel campo dell'Intelligenza Artificiale (IA), il Machine Learning (ML) comprende tecniche di analisi automatizzata dei dati finalizzate all'apprendimento di modelli direttamente dai dati. In particolare include modelli di classificazione e previsione, nonché approcci di clustering per raggruppare i dati. Negli ultimi anni, la rapida crescita della disponibilità di enormi volumi di informazioni digitali ha ampliato il campo delle applicazioni di ML, sollevando però anche nuove sfide. Ad esempio, i dataset sono spesso incompleti, inconsistenti o incerti. Per affrontare questi problemi, gli algoritmi di ML devono rimanere scalabili con l'aumento del volume dei dati e devono anche essere in grado di gestire informazioni sbagliate o mancanti e distribuzioni di classi sbilanciate. I metodi probabilistici di ML offrono un modo naturale per modellare l'incertezza in questi contesti, mentre i modelli spiegabili garantiscono che il comportamento e i risultati dei sistemi di ML possano essere compresi e affidati anche da utenti non esperti. L'Inductive Logic Programming (ILP), parte del ML, produce modelli basati su regole logiche che sono intrinsecamente interpretabili e rappresenta quindi un approccio spiegabile e affidabile. Gli approcci basati sulla logica offrono strumenti adeguati in questo contesto, poiché supportano la rappresentazione strutturata della conoscenza, la modellizzazione probabilistica e l'inferenza interpretabile. In quest'ambito, questa tesi esplora l'applicazione di metodi basati sulla logica e metodi tradizionali di ML in diverse applicazioni. Il primo contributo è LIFTCOVER+, un algoritmo di ILP per l'apprendimento della struttura e dei parametri di programmi logici probabilistici. L'apprendimento della struttura identifica le regole logiche che meglio spiegano gli esempi data una conoscenza di background, mentre l'apprendimento dei parametri assegna pesi probabilistici alle regole. Inoltre, un secondo contributo metodologico riguarda l’apprendimento dei parametri nel Probabilistic Answer Set Programming (PASP), ampliando la gamma di strumenti di ragionamento probabilistico disponibili nell’ILP. Il secondo contributo riguarda l’analisi dell’applicabilità e dell’efficacia di metodi di ML e ILP in diversi scenari reali, tra cui la knowledge graph completion, il supporto decisionale in ambito finanziario e la previsione di fattori di rischio in ambito medico. Il terzo contributo esplora la combinazione di logica e modelli di linguaggio di grandi dimensioni (LLM) per migliorare l'interpretabilità delle teorie logiche, specialmente quando queste includono predicati inventati privi di nomi significativi.

In the field of Artificial Intelligence (AI), Machine Learning (ML) comprises automated data analysis techniques aimed at learning models directly from data. These include classification and prediction models, as well as clustering approaches for grouping data. In recent years, the rapid growth of the availability of massive volumes of digital information has expanded the range of ML applications, while also raising new challenges. For example, datasets are often incomplete, inconsistent, or uncertain. To address these issues, ML algorithms must remain scalable as data volumes increase, and must also be able to handle imperfect or missing information and unbalanced class distributions. Probabilistic ML methods provide a natural way to model uncertainty in such settings, while explainable models ensure that the outcomes of ML systems can be understood and trusted even by non-experts. Inductive Logic Programming (ILP), a subfield of ML, produces rule-based models that are intrinsically interpretable, and thus represents a promising approach for explainable and trustworthy AI. Logic-based approaches offer suitable tools in this context, as they support structured knowledge representation, probabilistic modeling, and interpretable inference. In this context, this thesis explores the application of both logic-based and traditional ML methods to diverse domains. The first contribution concerns the development of probabilistic logic systems. One is LIFTCOVER+, an enhanced ILP algorithm that performs both structure and parameter learning. Structure learning identifies logical rules that best explain the observed examples given the background knowledge, while parameter learning assigns probabilistic weights to the rules. In addition, a second methodological contribution addresses parameter learning in Probabilistic Answer Set Programming (PASP), broadening the range of probabilistic reasoning tools available in ILP. The second contribution lies in demonstrating the applicability and effectiveness of ML and ILP methods across real-world scenarios, including knowledge graph completion, financial services, and medical risk prediction. The third contribution explores the combination of logic and large language models (LLMs) to improve the interpretability of logical theories, especially when they include invented predicates lacking meaningful names.