投资者提问:请问非attention机制大模型通俗的说是啥意思?

投资者提问:请问非attention机制大模型通俗的说是啥意思?
2024年03月10日 13:35 问董秘

投资者提问:

请问非attention机制大模型通俗的说是啥意思?

董秘回答(岩山科技SZ002195):

您好,感谢对公司的关注。 Attention机制是一种能让模型对关键信息重点关注并充分学习吸收的技术,也就是把注意力集中放在重要的点上,而忽略其他不重要的因素。ChatGPT等都利用了Transformer架构,其核心技术之一就是Attention机制。标准的Attention机制的计算复杂度为O(n^2∙d)(其中n表示序列长度、d表示特征维度,^2指平方)。标准Attention机制的复杂度随序列长度呈2次方增长。通常来说Transformer架构具有训练周期较长、应用成本过高、高机器幻觉表达等缺陷,在实际应用中需要的高算力和高成本让不少中小型企业望而却步。 针对Transformer架构的上述缺陷、以及不同行业对于高效能、低能耗AI大模型需求的不断增长,公司旗下岩芯数智研发团队意识到从零开始设计大模型的必要性,并推出了国内首个非Attention机制大模型—Yan 1.0模型。Yan架构没有基于Attention机制,也没有基于RNN(指Recurrent Neural Network,循环神经网络)等序列模型,而是通过完全自研的记忆算子及特征关联函数,将计算复杂度从标准Attention机制的O(n^2∙d)降低为O(n∙d)(线性复杂度),从而提高了Yan架构模型的训练效率和收敛速度。 谢谢。

查看更多董秘问答>>

免责声明:本信息由新浪财经从公开信息中摘录,不构成任何投资建议;新浪财经不保证数据的准确性,内容仅供参考。

股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 03-18 星宸科技 301536 --
  • 03-15 平安电工 001359 --
  • 03-11 骏鼎达 301538 55.82
  • 03-11 星德胜 603344 19.18
  • 03-04 美新科技 301588 14.5
  • 新浪首页 语音播报 相关新闻 返回顶部