融合场景文字与视觉:细粒度图像识别新路径