从会做题到会看病,蚂蚁如何训出真正好用的医疗智能体?

2025-04-22 18:00  观察者网

打开支付宝搜AI健康管家,用户即可调用"泌尿外科"智能体,获得诊前咨询、多轮问诊、多报告解读、肿瘤分期诊断及医疗挂号等服务。"这一智能体涵盖了98%常见泌尿系统疾病类别,上岗8个月,服务了30万人次,医院泌尿科一年门诊量约55万,超过半数。"

4月22日,上海交通大学医学院附属仁济医院(以下简称"仁济医院")展示其与蚂蚁集团合作AI医疗的最新成果。这也是全国首个用疾病结构化数据训练、在真实医疗场景运行的专科智能体。

"昨天晚上,我做手术做到半夜12:30,为什么?因为病人太多根本做不完。"仁济医院泌尿科主任潘家骅向观察者网谈到,优质医疗资源供需失衡,仍然是中国医疗体系面临的结构性难题。随着人工智能技术的发展,如何让大模型真正服务于医生诊疗过程,成为业内的迫切需求。

但是仁济医院和蚂蚁团队的研究发现,当下的通用大模型尽管在医师考试等场景下能够取得超过80%的准确率,比人类表现更好,是一个很会答题的"好学生",但还不是一个"好医生"。

研究数据显示,在真实场景的开放性医疗问答中,如果以仁济医院泌尿科专科医生的水平为基准,ChatGPT-4o的得分0.4-0.6之间,略高于仁济医院实习生的水平,但还不如普通的社区医院全科医生,更是显著低于普通专科医生。

潘家骅指出,对于通用大模型来说,如果患者问前列腺癌应该如何治疗,它往往只是列出前列腺癌有多少个治疗方法,可以去参考什么诊疗指南。而一个真正有用的医疗大模型,应该能够根据病人的具体症状,比如尿频尿急、骨头痛,去做出逻辑判断,是不是前列腺癌引起了骨转移。

仁济医院副院长、泌尿科学科带头人薛蔚认为,在医疗领域,精准的知识训练比注入规模化数据更重要,除了教给AI医学文献和指南,关键还在让AI学会医生的逻辑和思维,因此在这个过程中顶尖医生与技术应该成为搭档。

他进一步介绍道,"在对数据集、大模型、智能体系统性的开发过程中,仁济泌尿科医生深度参与、蚂蚁集团软件工程师、医学标注员共同建设对医疗文献、结构化诊疗数据的可控生成算法,并引入了人类医生的思考逻辑,让这一专科智能体达到临床可用的程度。"

蚂蚁集团AI医疗事业部高级算法专家申月解释说,人类医生基于临床经验,能够形成一套严谨、明确的诊疗逻辑,但人工智能的回答并不基于大量的经验性知识输入,二者思维方式不同。医疗大模型面临的一大挑战,就是去学习人类专家临床诊断的可解释性逻辑。

为此,仁济医院专家利用真实的临床病例,构造了2000余条数据的推理数据集,然后再通过人工智能进行迭代和复制,最后达到10万量级的大样本数据集构建。

借助这样基于真实病例的数据集,并为大模型引入思考链条,最终人工智能就能够更好地模拟医生在实际就诊过程中的思维路径。

观察者网获悉,仁济医院与蚂蚁集团合作的医疗智能体,在测试中已经接近于普通专科医生的准确率水平。

而在智能体能够独立进行诊疗之前,其更大的用武之地在于辅助人类医生,提高医生的诊断水平。评测显示,上述智能体能够让基层医生诊断正确率提升4%-8%,已初步具备"下基层"的能力。

公开资料显示,蚂蚁医疗大模型在MedBench医疗大模型评测中,曾连续斩获医学知识问答等多项第一,也是业内应用场景最丰富、与医疗机构、医生、医院共建最深的垂类大模型之一,目前已完成基于强化学习的新一代医疗推理模型研发。

据了解,仁济医院、蚂蚁集团正与人民卫生出版社合作建设人工智能数据库,进一步丰富专业语料库、持续提升医疗智能体的医学逻辑能力。同时,围绕泌尿专科大模型的开发更多应用,并探索将AI能力投射到更多基层医疗机构。

"将顶尖医院的诊疗经验标准化是AI未来的使命,推动医疗大模型进医院最大价值是向下扎根,通过'封装'三甲医院的诊疗能力,广泛服务基层医疗机构,使有限医疗资源以技术的方式得到扩容。"蚂蚁集团医疗大模型算法负责人王剑表示。

本文系观察者网独家稿件,未经授权,不得转载。