Enabling Machine Learning Services in High-Stakes Environments

Dahdal, Simon

Machine Learning is a transformative technology whose ability to extract patterns from complex data has enabled the development of novel applications, including predictive analytics, adaptive control, and intelligent decision-making across diverse domains. High-Stakes Environments, however, are contexts where errors or failures carry disproportionate operational, economic, or human consequences. In these settings, success depends not only on the predictive accuracy of the ML models but also on the reliability of entire systems under the infrastructural uncertainty, contextual variability, and organizational constraints. Managing the machine learning life cycle – from data collection to training, and deployment is especially demanding in these contexts, underscoring the need for systematic guidance to enable ML in a resilient, efficient, and context-aware manner. This work starts by addressing this need by introducing a framework for categorizing High-Stakes Environments, providing a structured entry point to start applying ML. The typology framework classifies operational settings along three key connectivity network dimensions–reliability, bandwidth, and latency–and links them directly to implications for ML workflows, particularly regarding training and deployment, highlighting how connectivity constraints affect the engineering choices and strategies required in such contexts. The framework distinguishes three macro-types of High-Stakes Environments: Type 1 corresponds to well-connected and resource-rich environments, where stable connectivity, abundant computational capacity, and predictable conditions allow ML straightforward deployment. Type 2 represents partially connected and resource-limited environments, where constraints emerge that require explicit trade-offs between centralized training and local inference, demanding ML optimization and hybrid strategies. Type 3 represents severely degraded or entirely disconnected infrastructures, typically encountered in extreme conditions such as natural or human-made disaster zones. In such contexts, systems must operate autonomously under unstable circumstances. Consequently, algorithmic adaptability becomes critical to preserving resilience. The work follows up with three representative real-world case studies. A smart manufacturing environment exemplifies Type 1 settings, where stable settings act as enablers for large-scale ML integration. This case provides a concrete end-to-end use case, involving the development of ML applications for anomaly detection and gearbox classification, and the final deployment of the solution in production. An in-field industrial scenario reflects Type 2 environments, demonstrating how ML workflows must respect the constraints at hand. A complete system was designed to make the company’s ice cream machines self-adaptive by classifying errors in the used recipes and consequently adjusting processing parameters in real time to preserve the product quality. Finally, a disaster-impacted environment captures the essence of Type 3 settings, highlighting the necessity of new adaptive ML approaches that sustain autonomy under degraded conditions. Thereby, a new distributed continual learning framework, Roaming Machine Learning (RoamML), was developed. It relies on intelligent mobile agents that navigate dynamically across network nodes, continuously learning from newly available data. Guided by a Data Gravity strategy, the agents make optimal, context-aware choices about the next node to visit, ensuring resilient and timely local decision-making in highly unstable environments. The research presented in this dissertation has been conducted in close collaboration with international institutes and world-leading manufacturing industries, including Bonfiglioli Riduttori and Carpigiani, and was further enriched by a research period at the Florida Institute for Human and Machine Cognition (IHMC), Florida, USA.

Il Machine Learning si è affermato come tecnologia trasformativa, capace di estrarre dai dati dei pattern complessi e supportare applicazioni innovative quali analisi predittive, controllo adattivo e decisioni intelligenti in diversi domini. Gli High-Stakes Environments sono contesti in cui errori o malfunzionamenti generano gravi conseguenze operative, economiche o per l’incolumità delle persone. In tali scenari, l’efficacia non dipende soltanto dall’accuratezza predittiva dei modelli di ML, ma anche dalla resilienza dell’intero sistema in condizioni di incertezza a livello infrastrutturale, variabilità contestuale e vincoli organizzativi. La gestione del ciclo di vita del ML in tali scenari è complessa e mette in evidenza la necessità di linee guida per soluzioni resilienti ed efficienti. Questo lavoro introduce un framework per categorizzare tali contesti, offrendo un approccio sistematico all’applicazione del ML. Il framework classifica i contesti secondo tre caratteristiche chiave della connettività – affidabilità, banda disponibile e latenza – e collega tali caratteristiche alle implicazioni sui flussi di lavoro di ML, in particolare per quanto riguarda le fasi di training e deployment. In questo modo viene mostrato come i vincoli di connettività condizionino le scelte ingegneristiche e le strategie necessarie in tali scenari. Vengono definite tre tipologie principali: la prima riguarda ambienti ben connessi e ricchi di risorse, nei quali connettività stabile, risorse computazionali abbondanti e condizioni operative prevedibili consentono un deployment relativamente diretto. La seconda include ambienti parzialmente connessi e con risorse limitate, in cui emergono vincoli che impongono compromessi tra addestramento centralizzato e inferenza locale, richiedendo l’ottimizzazione dei modelli e strategie ibride. La terza comprende infrastrutture gravemente degradate o totalmente disconnesse, tipiche di scenari estremi come disastri di origine naturale o umana, nelle quali i sistemi devono operare in autonomia in condizioni instabili, rendendo l’adattabilità algoritmica fondamentale per preservare la resilienza. Il lavoro prosegue presentando tre casi d’uso reali, ciascuno esemplificativo di un diverso macrotipo del framework proposto. Si inizia con un ambiente di smart manufacturing, rappresentativo del Tipo 1, nel quale la stabilità infrastrutturale funge da abilitatore per l’integrazione del ML su larga scala. Sviluppando applicazioni di ML per il rilevamento di anomalie e la classificazione di riduttori malfunzionanti, fino al deployment in produzione. Successivamente, viene affrontato uno scenario industriale riconducibile al Tipo 2, dimostrando l’adattamento ai vincoli di connettività e risorse. In questo caso è stato progettato un sistema completo che rende le macchine per gelato auto-adattive, classificando automaticamente gli errori nelle ricette e modificando in tempo reale i parametri di processo, al fine di preservare la qualità del prodotto. Infine, un ambiente di disastro cattura l’essenza dei contesti di Tipo 3, mettendo in evidenza la necessità di nuovi approcci adattivi al ML in grado di garantire autonomia in condizioni degradate. A tal fine è stato sviluppato un nuovo framework di Distributed Continual Learning – Roaming Machine Learning (RoamML) – basato su agenti mobili intelligenti che navigano dinamicamente tra i nodi di rete, guidato da una strategia basata sul data gravity, consentendo di scegliere in maniera ottimale il nodo successivo da visitare e apprendendo continuamente dai dati. La ricerca presentata in questa tesi è stata condotta in stretta collaborazione con istituti internazionali e aziende manifatturiere di livello mondiale, tra cui Bonfiglioli Riduttori e Carpigiani, ed è stata ulteriormente arricchita da un periodo di ricerca presso il Florida Institute for Human and Machine Cognition (IHMC), Florida, USA.