一、传统视频理解的技术瓶颈与成本困境 在计算机视觉领域,视频理解长期面临两大核心挑战:静态识别与动态推理的割裂,以及人工标注的高昂成本。主流视频语言模型(Video-LM)虽能准确识别画面中的物体(如“猫”“汽……