一、视频大模型的技术瓶颈与Object Tokens的破局价值 当前视频大模型在处理复杂动态场景时面临两大核心挑战:细节感知模糊与指代理解断层。传统基于帧级或时空块的表征方式,难以精准捕捉快速移动物体的形态变化(……