一、多模态大模型进入“实时交互”新阶段 2025年5月24日,OpenAI宣布其GPT-5o模型实现语音与视觉的实时融合交互,延迟从2.3秒压缩至0.8秒,达到人类对话水平。该模型在医疗场景中已实现“听诊器音频+患者表情”的联合……