一、中期答辩题目:多模态语音场景理解研究
二、中期答辩人:罗子扬
三、中期答辩时间:2026 年 5 月 7 日 下午 15:00
四、中期答辩地点:创新大厦 B1901
五、中期答辩内容简介:
语音智能作为多模态感知的重要技术路径,在智能安防、应急救援及复杂环境理解等关键场景中具有重要应用价值。本研究聚焦多模态语音场景理解,面向大模型驱动的跨模态感知与推理新范式,致力于突破传统视听分析方法在跨模态对齐能力弱、复杂场景泛化不足以及高层语义推理能力缺失等方面的局限。围绕音频与视觉模态对齐困难、语言驱动的音视频定位与理解复杂、多模态推理过程中决策机制不足以及多模态大模型在开放场景下易产生感知偏差与幻觉等关键问题,构建统一的多模态推理与决策框架。通过引入结构化推理机制与多模态协同建模方法,实现从感知对齐到语义理解再到决策生成的系统化建模与优化。本研究将显著提升多模态语音场景的智能感知与推理能力,为构建高可靠、多模态协同的智能系统提供方法支撑,并推动相关技术在复杂实际场景中的落地应用。
六、中期答辩人简介

罗子扬,女,西北工业大学自动化学院控制科学与工程专业,2022 级在读博士研究生,主要研究方向为多模态语音理解、显著性和伪装性检测。