红杉中国推出全新AI基准测试xbench_7x24小时财经新闻

05月26日 08:40

5月26日，红杉中国宣布推出全新的AI基准测试xbench，并发布论文《xbench： Tracking Agents Productivity， Scaling with Profession-Aligned Real-World Evaluations》。这是首个由投资机构发起，联合国内外十余家顶尖高校和研究机构的数十位博士研究生，采用双轨评估体系和长青评估机制的AI基准测试。xbench将在评估和推动AI系统能力提升上限与技术边界的同时，重点量化AI系统在真实场景的效用价值，并长期捕捉Agent产品的关键突破。红杉中国表示：xbench欢迎社区共建。对于基础模型与Agent开发者，可以使用最新版本的xbench评测集来第一时间验证其产品效果，得到内部黑盒评估集得分；对于垂类Agent开发者、相关领域的专业和企业，欢迎与xbench共建与发布特定行业垂类标准的Profession Aligned xbench；对于从事AI评测研究，具有明确研究想法的研究者，希望获取专业标注并长期维护评估更新，xbench可以帮助AI评估研究想法落地并产生长期影响力。

下一条快讯将在??秒后
到达新浪财经APP

立即前往

扫码下载链接财富

7x24小时全球实时财经新闻直播

坚持做最好的财经直播报道，给百姓最真的财经动态。