一、传统GUI Agent的技术架构与核心缺陷 当前主流的GUI自动化方案普遍采用”视觉识别+动作执行”的线性架构:通过ADB或类似工具获取设备截图,利用多模态大模型(MLLM)解析界面元素,最终生成点击坐标并执行操作。……