一、技术背景与核心挑战 在短视频爆发式增长的时代,视频内容检索与问答已成为智能媒体处理的核心需求。传统方案依赖人工标注或单模态分析,存在语义理解不充分、时空定位不精准等问题。多模态大模型通过融合视觉……