一、技术背景与问题提出 场景识别作为计算机视觉与自然语言处理交叉领域的核心任务,广泛应用于智能安防、自动驾驶、环境感知等场景。传统模型通常依赖黑箱式深度学习架构,虽能取得较高准确率,但存在输入特征影……