一、技术背景与现存挑战 在视频理解领域,现有主流多模态大模型(MLLMs)普遍面临三大核心问题: 时序感知缺陷:将视频视为离散帧序列处理,忽略帧间运动连续性。例如分析篮球比赛视频时,模型可能将”运球突破”误……