月之暗面杨植麟:大模型开发是“承包森林”

月之暗面杨植麟:大模型开发是“承包森林”
2024年05月25日 04:25 中国经营报

本报记者 李玉洋 上海报道

国内大模型创业公司月之暗面(Moonshot)最近又迎来一阵风。

公开报道显示,月之暗面正在进行新一轮融资,估值达到30亿美元(约合人民币217.8亿元),而新的投资者中出现了腾讯。

另据AI产品榜数据,今年4月Kimi(Moonshot)访问量达到2004万,较上月上涨60.20%,访问量超过文心一言的1691万,排在国内同类聊天机器人产品的第一位。

《中国经营报》记者注意到,月之暗面创始人杨植麟近日在上海参加活动时表示,大模型和互联网的开发方式完全不一样,后者像“在一个地方种树”,是一种规划式的发展,很少遇到技术瓶颈;而前者却类似“直接把整片森林包下来”,要去更多关注一些基础能力,再让大模型能力涌现。

对于公司新一轮融资情况以及业务发展规划,记者联系采访月之暗面,截至发稿暂未获答复。资深人工智能从业者黄颂对记者表示,本质上大家都不太了解大模型的边界在哪儿,因此需要尝试,就跟大航海似的,刚开出去看到一个小岛,有没有新大陆在外面都不知道。而深度科技研究院院长张孝荣认为,杨植麟的观点表明了现阶段大模型研发需要更多的基础能力,“而不是单一的技术瓶颈,这符合现实情况”。

“种树”和“承包森林”

公开资料显示,杨植麟出生于1993年,本科毕业于清华大学计算机系,博士毕业于卡内基梅隆大学计算机学院,曾就职于Facebook、谷歌等公司,师从苹果公司人工智能负责人Ruslan Salakhutdinov,有多年创业经验,曾与多名图灵奖得主合作发表论文,是盘古、悟道等国内最早大模型的技术贡献者之一。

同时,杨植麟还是中国35岁以下NLP(自然语言处理)领域引用最高的研究者,也是Transformer-XL和XLNet两篇重要论文的第一作者——两篇文章均为大语言模型领域的核心技术论文。

记者注意到,在阐述“承包森林论”之前,杨植麟用了这样一个故事作铺垫:“大概在20世纪70年代,英特尔发布了最早的微处理器,但那个时候微处理器其实没有什么作用,基本上看不到什么商业价值,能跑的应用非常有限。但是,比尔·盖茨和他的朋友保罗·艾伦观察到了摩尔定律,由此推测出虽然现在没什么用,但几十年后有可能每个家庭里都会有个人电脑。”

这给杨植麟带来了启发。“站在2019年的时候去看人工智能,也大概是这样的感受,就是模型可能一直在变大,但又没有达到一个真正每个人都能用的状态。”杨植麟表示,他们相信第一性原理,就是尺度定律,“每N个月模型计算量会有指数级的提升,通过计算量指数级的提升,达到智能能力的提升,最终不管是在手机上,还是在新的硬件形态上,有可能帮助到每一个人的AI出现”。

据了解,尺度定律最早由OpenAI提出,其认为模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,即模型的性能会随着这三个因素的指数增加而线性提高。传统AI模型参数量通常在数万至数亿之间,而大模型的参数量则至少是亿级,并已发展到万亿级的规模。

杨植麟指出,2022年年底GPT-4的发布,是AGI(通用人工智能)一个巨大里程碑,这得益于“互联网20多年发展所积累的数据、Transfomer架构的提出以及半导体(包括整个软件生态)的发展”。

这让杨植麟看到了AI to C的机会。“就有点像微处理器在上个世纪七八十年代的发展,突然到某一刻,你发现所有的条件都成立了,它就可以变成一个让普通用户可以去使用的技术,而随着规模化定律的持续发展,还能够再进一步提升能力。”他说。

“互联网的开发方式,很多时候可能是要去作规划式的发展,比如说先定个目标,再去开发,很少遇到由于技术瓶颈而导致东西开发不出来的情况。”杨植麟认为,当前大模型更多是涌现式的,比如说要训练到10的25次方的浮点数运算,但其实不知道训练到节点之后,它能涌现出什么新的能力,就要去更多关注一些基础能力,然后让模型能够去涌现。

由于生产方式不同,组织可能也要作一些调整。杨植麟指出,这正是新的创业公司能发挥优势的地方。

张孝荣对记者表示:“大模型尚在发展初期,没有产生专业化分工,在模型研发中,基础能力如数据、算力、算法等都是非常重要的,这些基础能力决定了模型的质量和性能,需要企业一揽子搞定。”

而天使投资人、资深人工智能专家郭涛也指出:“在大模型的开发中,确实会遇到技术瓶颈,如数据的获取和处理、模型的训练效率、算力的限制以及模型泛化能力的提升等。这些问题需要通过关注基础能力来解决,例如改进数据预处理技术、优化算法、使用更高效的硬件资源等。因此,杨植麟的说法在很大程度上符合现实情况。”

“爬楼梯”和“看风景”

月之暗面成立于2023年3月,是国内大模型领域的一个关键玩家,其核心团队曾参与到Google、盘古、智源悟道等多个大模型研发中。

在2023年,月之暗面就获得红杉中国、今日资本、真格基金、砺思资本等机构的早期投资。2024年2月,月之暗面获得了10亿美元新融资,刷新了国内AI领域最大单笔融资纪录。

5月20日,市场有消息传出,月之暗面正在以30亿美元估值进行最新一轮融资,新入局的投资者包括腾讯、高榕创投等。值得注意的是,腾讯此前已投资MiniMax、智谱AI和百川智能这三家大模型独角兽企业,而月之暗面成为唯一获得阿里巴巴与腾讯两家巨头投资的大模型公司。

记者了解到,月之暗面已完成从通用大模型到上层应用的布局。其中,大模型基础层,月之暗面已训练千亿级别的自研通用大模型,并获得了国内大模型备案审批;在应用层方面,月之暗面于2023年10月推出了全球首个支持输入20万汉字的智能助手产品Kimi,支持20万汉字的长文本输入,主打无损记忆和“长文本(Long Context)”。3月18日,月之暗面宣布Kimi智能助手现已支持200万字的无损上下文输入。

为什么月之暗面要把“长文本”作为自己的主打卖点?对此,杨植麟表示,长上下文的技术,类比于计算机时代的内存,“长上下文可以理解成大模型的内存,就是一次性能够往大模型里面输入多少token(文本处理中的最小单位),而token决定了能参与计算的数量”。

“你希望让Agent做一个比较复杂的任务,比如说完成某一个行业的研究报告,那它可能需要去访问很多链接,然后在这里面进行推理、思考,去完成一个组合式的任务。”杨植麟表示,这些背后都需要一个很长的上下文才有办法让它在窗口里面进行推理,然后对更复杂的依赖关系进行建模,从而完成更加复杂的任务。

近期,杨植麟的持续发声,也让外界对于月之暗面这家公司有了更多了解。据杨植麟透露,多模态是公司持续投入的重点方向。近期,OpenAI发布了新一代旗舰生成模型GPT-4o,该产品新增了文本、语音、图像三种模态的理解能力。

在持续布局技术的同时,月之暗面也期望在商业化和技术发展之间取得平衡。近期,少量用户遭遇“高峰时段,算力不足”的情况,Kimi弹出新的对话词条:“急需Kimi?‘点击这里’,给Kimi加油,高峰时期优先使用。”

也就是说,月之暗面采取“打赏”的方式为Kimi发电,进行灰度测试付费功能。目前,Kimi打赏方案有6种,价格分别为5.2元、9.99元、28.8元、49.9元、99元和399元,打赏后分别可获得4天、8天、23天、40天、93天和365天的高峰期优先使用权,点击“去支付”后弹出支付页面。

对此,杨植麟表示:“希望在‘爬楼梯’和‘看风景’之间取得平衡,大模型能力接下来有非常大的提升空间,我们希望能把精力和优先级放在‘爬楼梯’上。” 他还表示,作为“看风景”的商业化探索,公司也在尝试和发布一些新的商业化功能。

而在5月16日奇绩创空间闭门活动上,杨植麟表示,AI最重要的产品能力就是模型,特别是接下来的两三年,最重要的还是模型,模型决定了你的边界。

海量资讯、精准解读,尽在新浪财经APP
人工智能

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 05-31 达梦数据 688692 --
  • 05-28 利安科技 300784 28.3
  • 05-24 汇成真空 301392 12.2
  • 05-21 万达轴承 920002 20.74
  • 04-29 瑞迪智驱 301596 25.92
  • 新浪首页 语音播报 相关新闻 返回顶部