Improving the Robustness of Autonomous Robotic Systems through Synthetic Data Generation and Realism Enhancement

Rizzi, Jacopo

L’efficacia dei moderni sistemi autonomi dipende in larga misura dalla disponibilità di dataset ampi, diversificati e di elevata qualità, necessari per le fasi di addestramento e validazione. Tuttavia, sia il settore industriale sia quello medico soffrono di una marcata scarsità di dati, sebbene per motivazioni differenti. In ambito industriale, l’assenza di grandi dataset annotati per compiti di navigazione e percezione limita lo sviluppo di algoritmi robusti e adattabili, in grado di operare in ambienti complessi quali fabbriche, cantieri navali o magazzini. Nelle applicazioni mediche, la scarsità di dati deriva da vincoli legati alla privacy, da considerazioni etiche e dagli elevati costi di acquisizione e annotazione dei dati clinici, fattori che limitano l’adozione di modelli basati sui dati nella pratica clinica. Questa tesi indaga un approccio per mitigare la scarsità di dati in entrambi i contesti attraverso tecniche di generazione di dati sintetici e di potenziamento del realismo. Modelli generativi vengono impiegati per creare dati sintetici ad alta fedeltà, preservando la diversità e il realismo necessari per un apprendimento efficace, consentendo lo sviluppo di sistemi di percezione e controllo robusti anche in condizioni di limitata disponibilità di dati reali. Successivamente, tali soluzioni vengono applicate in un caso d’uso reale, in cui è sviluppato un sistema robotico autonomo capace di eseguire esami ecografici, con l’obiettivo di condurre campagne di screening su larga scala senza la necessità di personale medico qualificato. Infine, viene proposta una strategia di Dual Layer Model Predictive Control per migliorare la sicurezza e le prestazioni del sistema in presenza di ostacoli all’interno dello spazio di lavoro. Attraverso questi contributi, la tesi dimostra come la generazione di dati sintetici e l’impiego di strategie di controllo avanzate possano congiuntamente superare le limitazioni imposte dalla scarsità di dati reali, aprendo la strada a sistemi autonomi più affidabili, generalizzabili e applicabili sia in contesti industriali sia in ambito medico.

The effectiveness of modern autonomous systems relies heavily on the availability of large, diverse, and high-quality datasets for training and validation. However, both industrial and medical domains suffer from severe data scarcity—though for distinct reasons. In industrial settings, the absence of large annotated datasets for navigation and perception tasks limits the development of robust and adaptable algorithms capable of operating in complex environments such as factories, shipyards, or warehouses. In medical applications, the scarcity arises from privacy concerns, ethical constraints, and the high cost of acquiring and annotating patient data, which restricts the use of data-driven models in clinical practice. This thesis investigates an approach to mitigate data scarcity across these two domains through synthetic data generation and realism enhancement techniques. Generative models are employed to create high-fidelity synthetic data that preserve the diversity and realism required for effective learning, enabling the development of robust perception and control systems even in data-limited contexts. Subsequently, these solutions are applied in a real-world scenario, where an autonomous robotic system capable of performing ultrasound examinations is developed in order to conduct large-scale screening campaigns without the need for qualified medical personnel. Finally, a Dual Layer Model Predictive Control strategy is proposed to enhance the system’s safety and performance in the presence of obstacles within the workspace. Through these contributions, this thesis demonstrates how synthetic data and advanced control strategies can together overcome the limitations imposed by scarce real-world datasets, paving the way for more reliable, generalizable, and autonomous systems in both industrial and medical applications.