从会做题到会看病，蚂蚁如何训出真正好用的医疗智能体？

打开支付宝搜AI健康管家，用户即可调用"泌尿外科"智能体，获得诊前咨询、多轮问诊、多报告解读、肿瘤分期诊断及医疗挂号等服务。"这一智能体涵盖了98%常见泌尿系统疾病类别，上岗8个月，服务了30万人次，医院泌尿科一年门诊量约55万，超过半数。"

4月22日，上海交通大学医学院附属仁济医院（以下简称"仁济医院"）展示其与蚂蚁集团合作AI医疗的最新成果。这也是全国首个用疾病结构化数据训练、在真实医疗场景运行的专科智能体。

"昨天晚上，我做手术做到半夜12:30，为什么？因为病人太多根本做不完。"仁济医院泌尿科主任潘家骅向观察者网谈到，优质医疗资源供需失衡，仍然是中国医疗体系面临的结构性难题。随着人工智能技术的发展，如何让大模型真正服务于医生诊疗过程，成为业内的迫切需求。

但是仁济医院和蚂蚁团队的研究发现，当下的通用大模型尽管在医师考试等场景下能够取得超过80%的准确率，比人类表现更好，是一个很会答题的"好学生"，但还不是一个"好医生"。

研究数据显示，在真实场景的开放性医疗问答中，如果以仁济医院泌尿科专科医生的水平为基准，ChatGPT-4o的得分0.4-0.6之间，略高于仁济医院实习生的水平，但还不如普通的社区医院全科医生，更是显著低于普通专科医生。

潘家骅指出，对于通用大模型来说，如果患者问前列腺癌应该如何治疗，它往往只是列出前列腺癌有多少个治疗方法，可以去参考什么诊疗指南。而一个真正有用的医疗大模型，应该能够根据病人的具体症状，比如尿频尿急、骨头痛，去做出逻辑判断，是不是前列腺癌引起了骨转移。

仁济医院副院长、泌尿科学科带头人薛蔚认为，在医疗领域，精准的知识训练比注入规模化数据更重要，除了教给AI医学文献和指南，关键还在让AI学会医生的逻辑和思维，因此在这个过程中顶尖医生与技术应该成为搭档。

他进一步介绍道，"在对数据集、大模型、智能体系统性的开发过程中，仁济泌尿科医生深度参与、蚂蚁集团软件工程师、医学标注员共同建设对医疗文献、结构化诊疗数据的可控生成算法，并引入了人类医生的思考逻辑，让这一专科智能体达到临床可用的程度。"

蚂蚁集团AI医疗事业部高级算法专家申月解释说，人类医生基于临床经验，能够形成一套严谨、明确的诊疗逻辑，但人工智能的回答并不基于大量的经验性知识输入，二者思维方式不同。医疗大模型面临的一大挑战，就是去学习人类专家临床诊断的可解释性逻辑。

为此，仁济医院专家利用真实的临床病例，构造了2000余条数据的推理数据集，然后再通过人工智能进行迭代和复制，最后达到10万量级的大样本数据集构建。

借助这样基于真实病例的数据集，并为大模型引入思考链条，最终人工智能就能够更好地模拟医生在实际就诊过程中的思维路径。

观察者网获悉，仁济医院与蚂蚁集团合作的医疗智能体，在测试中已经接近于普通专科医生的准确率水平。

而在智能体能够独立进行诊疗之前，其更大的用武之地在于辅助人类医生，提高医生的诊断水平。评测显示，上述智能体能够让基层医生诊断正确率提升4%-8%，已初步具备"下基层"的能力。

公开资料显示，蚂蚁医疗大模型在MedBench医疗大模型评测中，曾连续斩获医学知识问答等多项第一，也是业内应用场景最丰富、与医疗机构、医生、医院共建最深的垂类大模型之一，目前已完成基于强化学习的新一代医疗推理模型研发。

据了解，仁济医院、蚂蚁集团正与人民卫生出版社合作建设人工智能数据库，进一步丰富专业语料库、持续提升医疗智能体的医学逻辑能力。同时，围绕泌尿专科大模型的开发更多应用，并探索将AI能力投射到更多基层医疗机构。

"将顶尖医院的诊疗经验标准化是AI未来的使命，推动医疗大模型进医院最大价值是向下扎根，通过'封装'三甲医院的诊疗能力，广泛服务基层医疗机构，使有限医疗资源以技术的方式得到扩容。"蚂蚁集团医疗大模型算法负责人王剑表示。

本文系观察者网独家稿件，未经授权，不得转载。