登录
首页 > 媒体学习 > 文心X1.1三大能力狂飙,海内外实测还挺惊艳!

文心X1.1三大能力狂飙,海内外实测还挺惊艳!

发布时间:2025-09-12 09:14:02
文心X1.1震撼上线,一手实测力压群雄! 三大能力飙升:事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。在多项基准测试中,整体表现超越DeepSeek R1-0528,部分保持领先,甚至追上了最顶尖的GPT-5、Gemini 2.5 Pro。
 
AI圈又双叒沸腾了!
 
9日,WAVE SUMMIT深度学习开发者2025大会上,文心大模型X1.1深度思考模型正式发布。
 
 
 
相较于文心X1,文心X1.1在事实性、指令遵循、智能体能力三大关键指标,实现显著提升。
 
具体来说,事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。
 
更令人震撼的是,文心X1.1在多项基准测试中,整体表现超越DeepSeek R1-0528,部分保持领先。
 
甚至,它还与最顶尖的GPT-5、Gemini 2.5 Pro,平起平坐。
 
 
 
文心大模型X1.1能力大涨,背后离不开飞桨的「最强辅助」。
 
大会上,百度升级发布飞桨框架v3.2。飞桨文心生态已吸粉2333万开发者,服务76万家企业。
 
 
 
从模型到框架,再到生态,百度这一套组合拳打下来,堪称AI界的「实力派卷王」。
 
文心X1.1出世,一手实测来了
 
现在,进入文心一言官网、文小言APP,即可立即体验最新「文心大模型X1.1」了。
 
 
 
传送门:https://yiyan.baidu.com/X1
 
接下来,我们开启了一波全面实测。
 
不捏造不猜测,文心X1.1太可靠了
 
一直以来,LLM凭空捏造、编造事实的问题饱受诟病,被业界称之为「幻觉」。
 
它们往往以自信的口吻生成结果,让用户难以辨别真假。
 
几天前,OpenAI团队曾挖出了「幻觉」的根源,在于训练和评估机制,倾向于奖励模型的「猜测」行为。
 
 
 
值得一提的是,这一次,文心X1.1通过基于知识一致性的强化学习技术,真正做到了「知识一致性」。
 
就以昨天的苹果WWDC发布会为例,文心X1.1能否精准介绍iPhone 17系列?
 
当然!从输出结果看得出,它分列出四款iPhone 17的各种参数以及价格,并附上了售卖日期。
 
Copyright 2013-2025 今日媒体网 版权所有  京ICP备13154207号-1