热门搜索

搜索历史清空

百川智能超千亿大模型Baichuan 3:中文评测超越GPT-4

IPO早知道 2024-01-30 10:56 2.6w阅读


亦在多个评测中被认为是中文医疗任务表现最佳的大模型。

本文为IPO早知道原创

作者|Stone Jin

据IPO早知道消息,百川智能日前发布超千亿参数的大语言模型Baichuan 3。

在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中,Baichuan 3都展现了出色的能力,尤其在中文任务上更是超越了GPT-4。而在数学和代码专项评测如MATH、HumanEval和MBPP中同样表现出色,证明了Baichuan 3在自然语言处理和代码生成领域的强大实力。



此外,与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题,百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了Baicuan 3的各项能力。

从实际落地的角度来看,鉴于大模型的全能特性能够在医疗领域发挥着至关重要的作用,诸如OpenAI、谷歌等头部大模型企业都将医疗作为模型的重点训练方向和性能评价的重要体系。百川智能亦如此。

而为了给Baichuan3注入丰富的医疗知识,百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识,确保了模型在医疗领域的专业度和知识深度。

针对医疗知识激发的问题,百川智能在推理阶段针对Prompt做了系统性的研究和调优,通过准确的描述任务、恰当的示例样本选择,让模型输出更加准确以及符合逻辑的推理步骤,最终不仅提升了Baichuan 3在多项医疗考试上的成绩,并且在真实的医疗问答场景下也能给用户提供更精准、细致的反馈。

逻辑推理方面,Baichuan 3在数学和代码等多个权威评测上中文任务超越GPT-4的优异成绩,已经充分证明了其强大的基础逻辑推理能力。在拥有丰富高质量专业医疗知识,并能通过调优后的Prompt对这些知识进行充分激发的基础上,结合超千亿参数的推理能力,Baichuan 3在医疗领域的任务效果提升显著,在各类中英文医疗测试中的成绩提升了2到14个百分点。


Baichuan 3在多个权威医疗评测任务中表现优异,不仅MCMLE、MedExam、CMExam等中文医疗任务的评测成绩超过GPT-4,USMLE、MedMCQA等英文医疗任务的评测成绩也逼近了GPT-4的水准,是医疗能力最强的中文大模型

此外,Baichuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异,领先于其他大模型。

整体而言,作为参数规模超过千亿的大语言模型,Baichuan 3不仅英文效果达到接近GPT-4的水平,还在多项通用中文任务的表现上实现了对GPT-4的超越,是百川智能的全新里程碑。Baichuan 3全面的通用能力以及在医疗领域的强大表现,将为百川智能打造“超级应用”,把大模型技术落地到诸多复杂应用场景提供有力支撑。

本文来源:IPO早知道

来源:IPO早知道

重要提示: 本文仅代表作者个人观点,并不代表乐居财经立场。本文旨在为满足广大用户的信息需求而采集提供,并非商业性或盈利性用途。任何单位或个人认为本文来源标注有误,或涉嫌侵犯其知识产权等相关权利的,请提供身份证明、权属证明及详细侵权情况证明等相关资料,点击【联系客服】或发邮件至【ljcj@leju.com】,我们将及时审核处理。

24小时热门文章

更多热读

最新文章

更多原创

评论

点击下载App参与更多互动

前往乐居财经APP查看原文,体验更佳

榜单