转自:经济参考网
近日,由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一。
![FlagEval大语言模型评测能力榜单官网截图](http://n.sinaimg.cn/spider20240618/72/w554h318/20240618/f8af-d111021ccf0991f3a7c698afc6167aa7.png)
FlagEval天秤大模型评测平台是智源研究院推出的科学、权威、公正、开放的大模型评测体系,自2023年发布以来,已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外300余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。
![FlagEval大语言模型评测能力榜单官网截图](http://n.sinaimg.cn/spider20240618/796/w554h242/20240618/c31d-f028dc8c929a92a31dc16fbd90f194f3.png)
从榜单中可以看到,百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一,云雀2-Pro、豆包、GPT-4o分别位居二三四位,百川、零一万物、kimi等追随其后。
日前,国际数据公司IDC发布的《中国大模型市场主流产品评估,2024》中,百度同样位于第一梯队。评测显示,百度旗下生成式AI产品文心一言和文心一格在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7大维度均具备领先优势。其他评测厂商中,阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。
![IDC《中国大模型市场主流产品评估,2024》](http://n.sinaimg.cn/spider20240618/66/w554h312/20240618/5599-494ceec358315e00abd96de9973efe83.png)
公开资料显示,2023年10月,百度文心大模型4.0正式发布,实现了基础模型的全面升级,在理解、生成、逻辑和记忆能力上明显提升。截至目前,文心一言累计用户规模已达2亿,日均调用量也达到了2亿。(李妍)
![](http://n.sinaimg.cn/finance/cece9e13/20200514/343233024.png)
海量资讯、精准解读,尽在新浪财经APP
VIP课程推荐
加载中...
APP专享直播
热门推荐
收起![新浪财经公众号 新浪财经公众号](http://n.sinaimg.cn/finance/72219a70/20180103/_thumb_23666.png)
新浪财经公众号
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)