RadLLM:放射学大型语言模型医疗基准测试体系解析 一、医疗AI领域的基准测试需求背景 随着大型语言模型(LLM)在医疗影像诊断、报告生成等场景的深入应用,行业亟需一套标准化评估体系。传统NLP基准测试(如GLUE、……