一、医学大模型评估的困境与突破需求 医学领域对模型准确性的要求远超通用场景。从疾病诊断到用药推荐,一个微小的误差都可能引发严重后果。传统评估方法依赖人工标注的测试集,存在三大核心痛点: 覆盖性不足:……