Details

Thesis Defense: Michal Golovanevsky (“Advancing Attention Mechanisms in Multimodal Deep Learning Models”)

Defensa de tesis: Michal Golovanevsky (Avances en mecanismos de atención en modelos de aprendizaje profundo multimodal)

Date: Jan 30, 2026 30 de January, 2026
Time: 9:00 AM – 11:00 AM 09:00 – 11:00
Location: 70 Brown St. Providence, RI 02912

Advancing Attention Mechanisms in Multimodal Deep Learning Models Multimodal models are central to modern Artificial Intelligence systems, with growing relevance in domains such as healthcare. Their success is often credited to attention mechanisms, which enable rich cross-modal interactions. However, attention scales poorly when more than two modalities are integrated, and its internal functions remain poorly understood. This thesis addresses the scalability and interpretability of attention in multimodal models by introducing novel integration mechanisms, interpretability pipelines, and targeted interventions. In the first chapter, I introduce One-Versus-Others attention, a scalable alternative to self- and cross-attention that reduces computational cost while preserving accuracy in high-modality settings such as clinical data integration. In the second chapter, I introduce NOTICE, a vision–language causal mediation framework that enables the discovery of human-interpretable functions in attention mechanisms, revealing distinct roles for cross- and self-attention. In the third chapter, I analyze the internal competition between memorized priors and new perceptual input in multimodal models, demonstrating that steering vectors can reallocate attention to favor either prior knowledge or new visual evidence. In the final chapter, I examined how specific groups of attention heads induce prompt-copying behavior in vision–language models, leading to systematic prompt-induced hallucinations on numerical and semantic tasks. Through targeted ablation, I showed that these hallucinations can be reduced without retraining, and that the mechanisms by which copying is suppressed differ across models while producing a shared shift toward visual grounding. The findings presented in this thesis deepen our understanding of attention in multimodal models, offering concrete tools for scalability and…

Avanzando los Mecanismos de Atención en Modelos de Aprendizaje Profundo Multimodal Los modelos multimodales son centrales en los sistemas modernos de Inteligencia Artificial, con una relevancia creciente en dominios como la salud. Su éxito se atribuye a menudo a los mecanismos de atención, que permiten interacciones cruzadas ricas entre modalidades. Sin embargo, la atención escala mal cuando se integran más de dos modalidades, y sus funciones internas siguen siendo poco comprendidas. Esta tesis aborda la escalabilidad y la interpretabilidad de la atención en modelos multimodales mediante la introducción de nuevos mecanismos de integración, pipelines de interpretabilidad e intervenciones específicas. En el primer capítulo, presento la atención Uno contra Otros, una alternativa escalable a la autoatención y la atención cruzada que reduce el costo computacional mientras preserva la precisión en entornos de alta modalidad como la integración de datos clínicos. En el segundo capítulo, introduzco NOTICE, un marco de mediación causal visión–lenguaje que permite el descubrimiento de funciones interpretables por humanos en los mecanismos de atención, revelando roles distintos para la atención cruzada y la autoatención. En el tercer capítulo, analizo la competencia interna entre los priors memorizados y la nueva entrada perceptual en modelos multimodales, demostrando que los vectores de dirección pueden reasignar la atención para favorecer ya sea el conocimiento previo o la nueva evidencia visual. En el capítulo final, examiné cómo grupos específicos de cabezas de atención inducen un comportamiento de copia de prompt en modelos visión–lenguaje, llevando a alucinaciones sistemáticas inducidas por prompt en tareas numéricas y semánticas. Mediante ablación dirigida, mostré que estas alucinaciones pueden reducirse sin reentrenamiento, y que los mecanismos por los cuales se suprime la copia difieren entre modelos mientras producen un cambio compartido hacia el anclaje visual. Los hallazgos presentados en esta tesis profundizan nuestra comprensión de la atención en modelos multimodales, ofreciendo herramientas concretas para la escalabilidad y…

Talks, Lectures & Author Events Charlas, conferencias y eventos con autores
Secret Link