投资者提问:董秘您好!请介绍一下公司子公司的Yan模型1.1在训练效率、推...

投资者提问:董秘您好!请介绍一下公司子公司的Yan模型1.1在训练效率、推...
2024年03月10日 13:37 问董秘

投资者提问:

董秘您好!请介绍一下公司子公司的Yan模型1.1在训练效率、推理、记忆能力、算力消耗、显存占用及成本方面的情况如何?正在研究的Yan1.2具体有哪些枝术特点?目前研究的进度如何?预计何时能发布? 谢谢啦!

董秘回答(岩山科技SZ002195):

您好,感谢对公司的关注。 岩芯数智于2024年1月发布了Yan 1.0模型,计算复杂度从标准Attention机制的O(n^2∙d)(其中n表示序列长度、d表示特征维度,^2指平方)降低为O(n∙d)(线性复杂度),从而提高模型的训练效率和收敛速度,因此Yan 1.0模型产生的资源消耗更低,更加经济、更加低碳。 我们对相同参数量级的Yan 1.0模型和Transformer(对照实验中采用的Transformer是基于HuggingFace LLaMA 2的标准结构,同时开启了flash-attn的支持)架构模型分别用1,000万条中英平行语料,基于同样软硬件环境的NVIDIA A800服务器训练以及同样的迭代次数下进行了对照试验: (1)训练效率方面,在上述对照实验环境下Yan 1.0模型的损失值要低于Transformer架构的LLaMA 2模型。在训练集上,训练数据收敛到相同的loss(loss=3.0)时,Yan 1.0模型仅需要1.5小时,而LLaMA 2模型却花费10.5小时,因此Yan 1.0模型的训练效率更高。 (2)推理准确率方面,在上述对照实验环境下Yan 1.0模型比LLaMA 2模型在训练集上的预测准确率高出17%、在验证集上的预测准确率高出13%。 (3)记忆能力方面,古诗是通过简短的字和词语表达丰富语境的一种体裁,token之间的困惑度也高于现代文,这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练,与LLaMA 2模型相比,Yan 1.0能够更快的达到更好的收敛,以及更高的准确率。 (4)显存占用方面,基于同样的参数量级在单张NVIDIA RTX 4090 24G显卡上,当输出token的长度超出2,600时,LLaMA 2模型会出现显存不足,进而无法完成推理;Yan 1.0模型的显存使用始终稳定在14G左右,可以进行正常推理。Yan 1.0模型的显存占用及成本比LLaMA 2模型更低。 岩芯数智团队目前正在研发Yan 2.0模型,Yan 2.0模型将会融合文字、音频、视频等多模态,以应用于更广泛的业务。Yan 2.0模型预计将于2024年下半年推出,具体推出时间请以后续岩芯数智的发布为准。公司提醒投资者警惕市场热点炒作,理性投资并注意投资风险。 谢谢。

查看更多董秘问答>>

免责声明:本信息由新浪财经从公开信息中摘录,不构成任何投资建议;新浪财经不保证数据的准确性,内容仅供参考。

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP
推理

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 03-18 星宸科技 301536 --
  • 03-15 平安电工 001359 --
  • 03-11 骏鼎达 301538 55.82
  • 03-11 星德胜 603344 19.18
  • 03-04 美新科技 301588 14.5
  • 新浪首页 语音播报 相关新闻 返回顶部