百川智能发布最强循证增强大模型M2 Plus，打造“医生版ChatGPT”

IPO早知道 2025-10-22 23:18 2.1w阅读

超越美国最火医疗应用OpenEvidence。

据IPO早知道消息，百川智能于10月22日发布循证增强医疗大模型Baichuan-M2 Plus，同步升级配套应用百小应并开放API。这是百川自8月开源Baichuan-M2以来的又一次重要动作。

评测显示，M2 Plus的医疗幻觉率较通用大模型显著降低，相比DeepSeek低约3倍，优于美国最火医疗产品OpenEvidence，可信度比肩资深临床医生水准。

不可否认的是，通用大模型固有的幻觉问题导致其在严肃医疗场景中难以真实应用。国内众多医院虽积极尝试部署和优化DeepSeek，但实际效果不尽人意。反观大洋彼岸的现象级医疗大模型产品OpenEvidence，该产品因符合医学认知的循证增强，已有40%美国医生在临床场景中注册使用，每月咨询量达1650万次。两天前，该公司C轮融资2亿美金，估值达60亿美元。

百川M2 Plus首创六源循证推理（EAR）范式，打造“医生版ChatGPT”，让大模型技术在辅助临床诊疗场景迈过“敢用、可用”关键门槛，不仅适合中国医疗环境，在美、日、英的医疗评测中均超过OpenEvidence，代表中国在世界大模型擂台上再下一城。

美国执业医师资格考试（USMLE）是评估临床知识和推理能力的黄金标准，即便是经验丰富的临床专家，要突破90分也极具挑战。在此项考试中，M2-Plus取得了惊人的97分，不仅远超人类考生平均水平，更与GPT-5的成绩持平，稳居全球第一梯队，展示了其世界级的临床问题解决能力。

中国执业医师资格考试（NMLE）及格线为360分，对于广大医学生而言，能考到450分以上已是高分，超过500分则被视为“学神”级别。M2 Plus取得了568分的“碾压级”成绩，在所有公开测试的主流大模型中位列第一。

如果说执医考是“从业门槛”，那么中国硕士研究生招生考试临床医学综合能力（西医）考试则是顶尖医学生竞争的“华山论剑”。该考试不仅知识面广，且题目设计极为复杂，对临床思维要求高。通常，能考到280分以上的考生，都是协和、北医等顶尖学府的头部学霸。M2 Plus在此项考试中取得了282分。同时，在日本、英国、澳大利亚等国高级医师职称晋升考试中，准确率85%以上，远超各国及格线。

这些压倒性的成绩充分说明，M2 Plus 在复杂医学知识运用上的能力，已经超越了人类医生水准。

接入M2 Plus的百小应已在各大手机应用商店更新，成为"医生版ChatGPT"。为方便电脑端使用，网页版（ying.ai）也同步上线。

除了需要高效地辅助临床决策，医生还开始面对新的挑战：患者用DeepSeek自诊和带着DeepSeek就医的现象越来越多。虽然知道大模型可能有幻觉和偏颇，但没有时间和精力去甄别哪句对哪句错。通过百小应，医生有了面对通用模型挑战的“专属武器”。

对于希望深入理解诊断、治疗、预后、病因、检查等背后科学逻辑的患者及家属，面对复杂的就医环境和不同医生给出的诊疗方案，百小应让他们有机会获得最新最权威的知识、顶尖专家的思维和视角，得到无限耐心的专业解答。

Baichuan-M2 Plus也提供了标准化API接口，医院信息化部门、互联网医疗、大健康服务等各类泛医学机构，以及从事医疗AI行业的开发者，则可以通过API将循证推理接入服务场景，提升AI服务的医学专业性。

通过开源Baichuan-Ｍ2、发布Baichuan-Ｍ2 plus、百小应，开放API，百川致力于持续提升AI医疗在真实临床场景的可用性，推动大模型在严肃医疗场景进入落地可用新阶段。

本文为IPO早知道原创

作者｜Stone Jin

本文来源：IPO早知道

来源：IPO早知道

IPO早知道

重要提示： 本文仅代表作者个人观点，并不代表乐居财经立场。本文旨在为满足广大用户的信息需求而采集提供，并非商业性或盈利性用途。任何单位或个人认为本文来源标注有误，或涉嫌侵犯其知识产权等相关权利的，请提供身份证明、权属证明及详细侵权情况证明等相关资料，点击【联系客服】或发邮件至【ljcj@leju.com】，我们将及时审核处理。