一、技术背景与问题定义 传统问答系统依赖文本输入的局限性在移动端场景愈发明显:键盘输入效率低下、复杂物体描述困难、多语言交互障碍等问题,催生了”以图问图”的新型交互需求。某主流云服务商2022年调研显示,6……