Internal Models and Predictive Learning in Speech Perception

Corsini, Alessandro

Il mondo può essere descritto come un sistema dinamico che evolve nel tempo secondo leggi di causalità, e il cervello deve sfruttare le osservazioni percettive per costruire modelli interni affidabili della realtà al fine di predire e agire per la sopravvivenza. Concetti quali la selezione predittiva dell’informazione e la scoperta dei fattori causali hanno svolto un ruolo centrale nello spiegare i processi computazionali alla base della costruzione di tali modelli. Costruire un modello interno richiede la selezione delle informazioni rilevanti da input sensoriali ambigui e rumorosi e l’isolamento delle proprietà invarianti, spesso riconducibili a cause latenti dei dati sensoriali. La percezione del linguaggio rappresenta un esempio particolarmente significativo della complessità della costruzione dei modelli interni. Risultati storici sulla difficoltà di ancorare invarianti percettivi nei segnali acustici hanno portato all’ipotesi che il cervello inferisca cause distali — in particolare i gesti articolatori del parlante — a partire dagli stimoli acustici prossimali. In modo analogo, i modelli contemporanei di machine learning, soprattutto quelli basati sul deep learning, mirano ad apprendere modelli del mondo ottimizzando obiettivi predittivi e causali (§2) e sono sempre più utilizzati nell’analisi di dati neuroscientifici ad alta dimensionalità. In questa tesi indago la natura dei modelli interni che il cervello utilizza durante la percezione del linguaggio e il modo in cui essi guidano la selezione dell’informazione e la comprensione. Nella Parte I (Modelli interni della percezione del linguaggio), mostro che durante l’ascolto del parlato il cervello codifica i movimenti articolatori del parlante, nonostante questi non siano mai accessibili visivamente. Dimostro che tale informazione articolatoria è funzionale alla percezione del linguaggio: viene potenziata in condizioni di ascolto difficili (§3) e modula la percezione di lingue non native secondo una relazione a U invertita in funzione della competenza linguistica (§4). Esploro inoltre come il predictive coding possa spiegare questi effetti e l’emergere di illusioni uditive cross-linguistiche (§5). Nella Parte II (Spiegazione per sintesi), mostro come i modelli di machine learning possano essere utilizzati per investigare l’apprendimento dei modelli nella percezione del linguaggio, evidenziando come la definizione delle funzioni obiettivo consenta approcci di sintesi guidati da ipotesi. Dimostro che l’apprendimento predittivo nello spazio latente tramite un obiettivo contrastivo (InfoNCE) isola l’informazione predittiva più coerente con la percezione umana del linguaggio (§6). Infine, nella Parte III (Spiegazione per analisi), affronto l’uso di metodi di machine learning per l’analisi di dataset neuroscientifici complessi in cui più sorgenti correlate influenzano una variabile target. Propongo un metodo che combina apprendimento contrastivo e decomposizione parziale dell’informazione per approssimare il contributo ridondante di due sorgenti a una variabile target (§7). Nel complesso, questa tesi contribuisce alla comprensione dei modelli interni alla base della percezione del linguaggio e propone due strategie complementari per spiegare il calcolo cerebrale: la spiegazione per sintesi e la spiegazione per analisi.

The world can be described as a dynamical system that evolves over time according to laws of causation, and the brain must exploit perceptual observations to build reliable internal models of reality in order to predict and act for survival. Concepts such as predictive information selection and causal factor discovery have played a central role in explaining the computational processes underlying the construction of such models. Building an internal model requires selecting relevant information from ambiguous and noisy sensory inputs and isolating invariant properties—often corresponding to latent or “hidden” causes of sensory data. Speech perception provides a compelling example of the complexity of internal model construction. Historical findings on the difficulty of grounding perceptual invariants in acoustic signals have led to the hypothesis that the brain infers distal causes—specifically, the speaker’s articulatory gestures—from proximal acoustic stimuli. In a parallel manner, contemporary machine learning models, particularly those based on deep learning, aim to learn world models from observations by optimizing predictive and causal objectives (§2). The increasing complexity of these models has also enabled their widespread use in the analysis of high-dimensional neuroscientific data. In this thesis, I investigate the nature of the internal models the brain uses during speech perception and how these models guide information selection and understanding. In Part I (Internal models of speech perception), I build on evidence showing that, during speech listening, the brain encodes the speaker’s articulatory movements—even though these movements are never visually accessible during listening or development. I demonstrate that this articulatory information plays a functional role in shaping speech perception: it is enhanced under challenging listening conditions to support auditory processing (§3) and modulates non-native speech perception following an inverted-U relationship with language proficiency (§4). I further explore how predictive coding, a proposed learning principle for internal model formation in the brain, can account for these effects and for the emergence of cross-linguistic auditory illusions (§5). In Part II (Explanation by synthesis), I show how machine learning models can be used as computational tools to investigate model learning in speech perception. I focus in particular on how shaping model objective functions enables hypothesis-driven synthesis approaches. I demonstrate that predictive learning in latent space using a contrastive objective (InfoNCE), as opposed to reconstruction-based learning or predictive learning in observation space, isolates the predictive information most consistent with human speech perception (§6). Finally, in Part III (Explanation by analysis), I address the use of machine learning methods for the analysis of complex neuroscientific datasets in which multiple correlated sources influence a target variable. Such settings are ubiquitous in neuroscience, particularly in audio-motor and audio-visual domains. I propose a method combining contrastive learning and partial information decomposition to obtain a variational approximation of the redundant information contributed by two sources to a target variable (§7). In doing so, I show that state-of-the-art speech recognition models fail to align with human perceptual efficiency unless they are explicitly trained to learn predictive representations in latent space. Overall, this thesis advances our understanding of the internal models underlying speech perception and proposes two complementary strategies for explaining brain computation: explanation by synthesis, through controlled model objectives encoding explicit hypotheses, and explanation by analysis, through robust methods for disentangling multivariate information in complex neural data.