

中国研发能在垂直领域取得全球的SOTA。2024中国生成式AI大会于4月18-19日在北京举行,在大会首日的主会场开幕式上,昆仑万维(39.920, 0.46, 1.17%)董事长兼CEO方汉以《从天工SkyMusic音乐大模型谈SOTA红利》为题发表演讲。方汉强调了“技术领先”在AI领域的重要性,不同于互联网时代产品的商业模式导向,大模型时代技术导向才能带来市场上的领先优势,吸引大量用户并获取红利。OpenAI在AI创企中的地位,本质上是其文本大模型的SOTA(当前技术指标第一)能力带来的。对于当前的AI创业者,在图像、视频、音乐等任何赛道,只要能取得SOTA,就能通过技术优势获得大量用户,后续再通过产品创新、商业模式创新把用户固化在平台上,形成自己的护城河。在AGI和AIGC领域,昆仑万维研发出了天工3.0模型,包含音乐大模型SkyMusic和全球最大规模的开源MoE大模型。其中音乐大模型SkyMusic就处于音乐领域的SOTA地位。SkyMusic音乐大模型支持多种方言输出,具有辨识度的自然人声、降低音乐创作门槛和成本等,便于内容行业发展。基于音质、自然度和理解度方面的优势,即使是没有音乐背景的普通人也能够利用该技术进行音乐创作,而这也将极大地扩展音乐创作的可能性和范围。此外,天工3.0大模型数学、推理、代码等方面能力大幅提升,同时具有多轮搜索与综合工具的调用能力,将带来内容行业的爆发,同时也将促进文化平权和打破垄断,让每个人更好地塑造和表达自我。以下为方汉的演讲实录:SOTA其实是一个学术上用得非常多的专有名词,全称是“State of the Art”,这个比较拗口,其实是当前技术指标第一的意思。这本来是在机器学习领域用来评估模型的一个技术指标,原本是个学术词,为什么会备受关注?
01.在垂类领域拿到SOTA,才能将技术红利转化市场红利
纵观这一波大模型的投资以及创业浪潮,可以发现一个明显的现象。在上一波移动互联网,所有创业公司的CEO或者Leader基本上都是产品或者是商务背景,也就是说移动互联网是商业模式和产品模式的创新,而这一波AI创业的大潮,所有AI公司的CEO基本上都是技术背景。为什么呢?因为在AI领域技术远远超过产品商业模式,技术的领先才能带来业务上的红利。举几个例子,首先不可避免要谈到这个行业的第一名,OpenAI。OpenAI为什么现在估值这么高,为什么全世界对它这么期许?因为本质上在ChatGPT之后,它在文本大模型上的SOTA地位一直非常稳固。直到Claude 3出来之后,才第一次有大模型可以接近GPT-4的位置,所以它赶忙抛出Sora,这是在视频生成领域的SOTA。也就是说在最泛化的通用人工智能、文本大模型领域,OpenAI的SOTA红利非常明显。但是我们看图像生成赛道,DALL·E 3出来得非常早,但是很快像Midjourney、Stable Diffusion出来之后,这些中小型的创业公司获取大量的用户,远远超过OpenAI的DALL·E 3。为什么?就是因为DALL·E 3没有达到SOTA。SOTA被Midjourney以及后面的一些中小创业公司拿到,用户肯定会选择中小公司的产品,而不会选择其他公司的产品。也就是说在任何一个领域,对于我们所有的创业者和后来者,只要你能在这个领域拿到技术指标上的第一,你就能够获取大量的用户。在获取大量用户之后,才可以用你的产品模式、商业模式把这些用户固化在你的平台上。从长期来看,只要新的大模型和新的竞争者没有明显的代际压制的话,你仍然能够继续靠这些用户获取红利。就像Midjourney V6出来之后,它的SOTA地位已经不是很稳固了,但是用户基础仍然很坚实。前面是我的一些背景介绍,当然中国企业因为进入大模型赛道,其实大家都蛮晚的,但是我们在全球的竞争中心仍然是坚持技术第一,我们一定要在某个垂类领域拿到SOTA之后,才能够由技术上的红利,转化为用户和市场上的红利。
02.以天工大模型为底座,形成六大业务矩阵
首先给大家汇报一下昆仑万维是从什么时候开始做AGI和AIGC这件事情。我们是2020年GPT-3出来的时候就成立了一支团队做文本大模型的预训练工作,2021年开始做音乐大模型的生成预研工作,当然我们也走过很多弯路,比如音乐大模型一开始走的符号生成,再转到端到端。现在所有垂直赛道到终局一定是端到端。2022年12月,我们发布了中国首个开源文本大模型,当时海外的各种开源大模型也没出来,这是来自中国企业的第一个基于中文的13B开源文本大模型。2023年4月17日,我们发布了天工1.0;8月23号发布了国内首个AI搜索“天工AI搜索”。今年4月17日,我们发布天工3.0,包含首个中国的音乐AIGC赛道的SOTA,也就是SkyMusic音乐生成模型,以及4000亿参数的全球最大规模的开源MoE大模型。

目前我们有六大业务矩阵,包括AI大模型、AI搜索、AI音乐、AI视频、AI社交和AI游戏。虽然矩阵这么多,但我们目标非常清晰。首先我们一定要做底座模型——天工大模型,从原来的文本大模型到现在的MoE大模型,再到下一代多模态大模型,我们一定要在底座大模型上持续去演进。为什么?因为现在有一个明显的现象,所有垂直赛道的各种垂类模型,不管音频、音乐、视频、图像还是3D模型其实都严重依赖于底座文本大模型的能力,如果底座文本大模型能力不行,各种垂类模型能力上限比较低。社交、音乐、游戏和视频都属于AIGC垂类赛道,我们认为在这些垂类赛道上只要进行持续和长期的投入,就一定可以达到SOTA,从而获取市场上的领先优势。
03.中国首个音乐AIGC上的SOTA,近2000万首全量音乐数据集
首先给大家介绍一下天工音乐大模型SkyMusic,这个现在已经对全量用户开放了,大家在App Store和应用商店搜索“天工”,“天工”里面有一个音乐的type,大家可以立刻去使用,这是中国第一个音乐AIGC上的SOTA。这是我们把剁椒鱼头的菜谱做成一首歌的案例演示,是用粤语演唱出来的。

这是天工AI音乐和庞博联合的案例,我们把庞博写的词做成了一首歌。

下面说一下技术指标,目前SkyMusic和Suno V3版本相比,在人声、BGM音质、人声自然度、发音可懂度方面都已经击败了Suno。我们相信在下一个版本里面可以把这个差距继续拉大。AI音乐大模型,自2021年开始研发到现在走过三年历程,我们技术路线也在不断地演进。去年8月份Sora没有出来,我们就已经转向Diffusion Transformer架构,因为这个架构是最为Scale up的一种架构。我们的数据集包含将近两千万首全量的音乐数据集,并且经过三年多的清洗和处理,其数据质量是有保障的。我们采用类DiT架构做了SkyMusic音乐大模型的研发,目前这个大模型还只是我们的第一个版本,后续在实验室版本会实现更多的功能。

下面介绍一下我们有哪些非常独特的优势。用过Suno的都知道,你选择的是文本标签和风格。我们现在的制作方法是,上传一首你喜欢听的歌,甚至你自己录的一个旋律,我们都能根据这个生成音乐。这其实更像传统的音乐工作者创作音乐的一个逻辑,很多音乐工作者先在脑海或者嘴巴哼出一段曲子,然后写下来,根据这个再做主歌、副歌、编曲的工作,SkyMusic示例音源生成音乐的能力非常强。第二,我们支持单一语种方言的输出能力。目前中文版本已经支持四川话、粤语、北京话、天津话、上海话等多种方言版本,这个对于用户来说是非常有意义的。最后是更具辨识度的自然人声。人声的音源质量,以及对于各种人群,女声、男声、幼儿声和成人声,SkyMusic都有非常好的一个泛化。当做到技术上的SOTA时,怎么把技术上的SOTA转为产品上的红利?我们认为所有的AIGC,包括音乐创作的大模型出来后,首先极大降低了音乐创作门槛。就像我发的朋友圈,“人人皆可以歌明志”。以前我们做一首歌的逻辑是什么?首先要从四五岁就开始学钢琴、学乐理、学乐谱。我自己的孩子在钢琴方面可能花了七八年才考到一个专业级别,这个训练时间很长。如果他能成为一个作曲家,可能还要在大学里面再学四年,学完四年之后这还只是作曲,作完曲还要编曲,编曲完还要找歌手演唱、找录音棚来录。我们在市场上录一首歌从头到尾,哪怕用最简化的配置、最普通的设备也要两万人民币左右。这就导致了整个音乐创作,实际上仅仅依靠一个人是没有能力创作歌曲的,但是有了SkyMusic大模型之后,所有人只要花1分钟时间,只要你有歌词,就能生成一首完整的歌曲,极大降低了音乐创作的门槛和造福全体内容行业。以前大家知道所谓的配乐全是拿现有的曲子往视频内容上配,今天可以把这个话题极大泛化,比如今天的主题演讲,可以给每一位主题演讲者配一首歌,比如微博上每一个大V给他们写一首关于他们的歌曲,这个对于全体的内容行业都非常便利。最后,SkyMusic证明中国研发也可以在垂直领域取得全球的SOTA,从而让中国企业在全球的AIGC市场上去和国外的同行正面竞争,获取我们应有的市场份额。
04.4000亿参数开源MoE大模型天工3.0,拉低全领域创作门槛
下面介绍一下天工3.0,我们4月17日开启公测的4000亿参数的全球最大规模的开源MoE大模型,目前性能已经全部超越xAI发布的3140亿参数的MoE大模型Grok-1。这是天工3.0 400B参数的MoE大模型的技术底座,目前在MMBench推理能力测试中标蓝色的是处于领先的技术指标,我们在这个技术指标上还是遥遥领先的。

天工3.0,功能全面升级,它更聪明,模型的技术知识能力提升超过20%;数学、推理、代码、文创能力提升30%;内容创作能力,包括能搜索、能写作、能阅读、能聊天,能够语音对话,能够文生图,能够给你作词作曲。给大家演示一下多轮搜索与综合工具的调用能力。图中问题是成都迪士尼怎么去,成都迪士尼实际上是一个梗,它是成都的一个小区,并不是真正的迪斯尼乐园。这时候通过搜索和大模型结合就判断出来成都迪士尼实际上是一个网络梗,但它还是把怎么去成都迪士尼这个小区规划做出来。当你问到上海迪士尼天气时候,大模型又生成一张天气卡片,告诉你今天上海迪士尼下雨,最后再调用文生图给你生成一张图片。

第二个研究模式,做研究需要写大纲、写知识图谱和思维导图,而天工3.0在自动搜索之后不仅仅能生成表格,而且可以迅速生成大纲和自动生成脑图,最后自动生成脑图,可以即贴即用。智能体广场可以构建超强的AI智能体,去帮助你完成相应的工作。例如造一个智能体,帮助研究小米汽车和特斯拉汽车的一个差别,进行大量搜索获取大量资料后,模型开始生成文图俱备的对比表格,对于做文案工作的同学非常关键。
05.昆仑万维新使命:实现AGI,让每个人更好地塑造和表达自我
昆仑万维作为一家中国的互联网企业,现在的战略是All in AGI与AIGC。我们在2023年宣布了公司的新使命:实现通用人工智能,让每个人更好地塑造和表达自我。

为什么要做这样一个使命的修正?因为实现通用人工智能,本质上是基于文本大模型把人类所有的知识压缩到我们的通用大模型里面,这样是通向通用人工智能的必经之路。但是大家知道通用人工智能在现实中的落地是有先后之分的,什么样的场景会更容易落地?其实也比较简单,有人开玩笑说,大模型刚出来的时候大家都觉得所有做生产工作的同学会最早失业,所有做创意艺术的同学应该是位置是最稳固的。但实际上经过这段时间的发展,大家可以看到,所有做文艺创作的同学失业概率会更大一些,也就是说在内容生成领域,其实AI的落地更容易。很简单,因为内容生成领域容错率极高,用户对于内容错误忍耐度非常高。我们可以容忍我们画上、视频的人多一根手指头、少一根手指头。但是我们工作中,你哪怕小数点后面少一位,这都是巨大的生产事故。也就是说在容错率高的内容赛道,这一波大模型和人工智能的发挥空间是非常大的。我们在人工智能、AIGC领域,研究目的就是降低创作的门槛。不管是文生图、文生视频、文生音乐、文生音效还是文生3D资产,本质上就是移除所有前序我们所需要的长期的专业训练,而让任何一个人觉得只要你会讲故事,就可以创造出相应的内容来表达你自己。这会带来什么样的影响?首先大家知道创作内容的成本极大降低了,创作内容的门槛降低了。我们知道创作内容方面只要门槛降低,创作内容的人数会急剧膨胀。举个例子,我小时候拍视频都是电视台记者扛几十公斤的摄像机拍,这时候创作者非常少。但是智能手机出现之后把拍摄者变成全中国十几亿人,人人可以拍视频,结果就是短视频行业的巨大发展。这一波AI把全领域的创作门槛都拉低了,结果是什么?整个内容行业会迎来一个巨大的爆发。同时,它还带来另外一个文化平权和打破垄断的作用。为什么?我在非洲待了蛮长时间,在尼日利亚的时候,了解到尼日利亚拍一部在院线上线电影的平均成本是两万美金到二十万美金之间,这样拍出来的片子和中国四五亿人民币拍出来的《流浪地球》、美国四五亿美金拍出来的“漫威”系列电影相比,是毫无竞争力的。但是在我们下一代AIGC技术出来之后,我们认为全世界所有的弱势文化的人都可以用非常低廉的成本,创造出媲美欧美强势文化的内容。这样的结果是什么?每个弱势文化的族群都可以通过AIGC技术来产生适合自己民族的文化、产生适合自己小语种的文化,这个对于全世界的文化平权是非常有意义的。这也就是第二条,让每个人更好塑造和表达自我,这也是研发人员在文生音乐、文生视频、文生小说、文生漫画等内容创作领域持续不断迭代改进的一个终极目的。以上是方汉演讲内容的完整整理。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



APP专享直播
热门推荐
意大利总理提议北约集体防御条款适用于乌克兰 收起意大利总理提议北约集体防御条款适用于乌克兰
- 2025年03月08日
- 01:25
- APP专享
- 扒圈小记
4,653
特朗普:与乌克兰打交道更困难,他们已经“无牌可打”
- 2025年03月07日
- 23:37
- APP专享
- 扒圈小记
2,553
媒体:美国确认切断乌克兰对卫星图像的访问权限
- 2025年03月08日
- 04:35
- APP专享
- 北京时间
1,627

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
趋势领涨今天 05:29:59
私募股权公司Sycamore Partners与老牌连锁药店沃博联达成最终协议,以近100亿美元价格将后者私有化,包括债务在内的交易总价值为237亿美元。这笔交易预计将于今年四季度完成。沃博联的市值自2015年以来已下跌90%,截至当地时间6日为93亿美元。 -
趋势领涨今天 00:27:08
=加入潜伏擒牛VIP,享四大顶级服务=【1】购买VIP自动加入私密小直播间!【2】每周3-5只超短金股调入调出服务,适合实时看盘的投资者!【3】每周一份高端内部绝密文章:包含近期布局、热点版块、指数预判!【4】每月2~3只高端中线金股服务!(VIP超短、中线个股均有涉足,让上班族也能跟上VIP节奏!)现月课7.5折,1288元!季课6.9折,3558元,续费季度更划算!新朋友可先月课体验!点网址,直接买,订购地址:【更多独家重磅股市观点请点击】【更多独家重磅股市观点请点击】 -
趋势领涨今天 00:26:42
人工智能是后期主要发展方向,这点没有任何疑问,人工智能板块的炒作也是后期主要热点,这点也没有疑问,但近期涨幅确实有点大了,树不能长到天上去,虽然后期还有行情,但短期也有调整的风险。该消息主要涉及的是AI+教育,前期也已经经过了多次炒作,所以,大家还是要注意追涨的风险。另外,骏利亨德森投资环球科技领先团队表示,近期减持中资科技股,将资金调回美股。这个信号也要引起大家的注意。三、美国2月非农就业人数略低于市场预期 降息预期降温美国2月季调后非农就业人口15.1万人,预期16万人,前值由14.3万人修正为12.5万人。数据公布后,美国短期利率期货下跌;交易员不再押注美联储5月降息。美国利率期货交易员现在押注美联储要等到6月才能重新开始降息。以前市场预期美联储将在12月份才有降息,随后提到5月份降息,现在美国2月非农就业人数低于预期,市场不再预期5月份会有降息,总之,美联储要降息时,公布的数据都是符合降息的;否则,美国公布的数据都是不利于降息。一句话就是美联储通过不断地恐吓,将资金留在国内,给美国服务,但美元指数的大幅回调,说明资金正在逃离美国,东升西落,美国正在进入衰退期,大摩将2025年美国GDP增长预测下调至1.5%,之前的预测为1.9%,这个应该也是信号。资金都是逐利的,只要有一小部分资金能够进入A股市场,A股今年出现牛市是可能的,但前提是内资不能天天砸盘!下周重要事件将要落幕,大盘应该会迎来震荡,但中期走势还是向好的,所以,大盘回调将是机会。今天是三八节,没有太阳、花朵不会开,没有爱、幸福不会来,没有妇女,也就没有爱,所以,妇女是爱的根源,也是爱的源泉,祝天下妇女三八节快乐! -
趋势领涨今天 00:26:37
昨天港股再创新高,港股这波走势确实很牛,港股恒生指数大涨超过32%,恒生科技指数大涨近50%,主要原因就是港股里面有国内科技股巨头腾讯、阿里等,而A股连上攻3400点的勇气都没有,主要原因就是量化资金收割,垃圾股太多,港股炒业绩,A股炒垃圾,这就是宿命!所以,我们始终认为,本轮炒作要盯紧港股,港股一旦见顶,A股必定见顶,只要港股能够继续上行,最终资金会流向A股,因为以前港股便宜,A股跟港股的逆差较大,但经过本轮上涨以后,A股跟港股的逆差已经大幅缩小,随着后期进一步缩小,A股就会变成低估了,所以,对今年的行情不悲观,但短期不会一帆风顺。一、华为正式组建医疗卫生军团据科创板日报,华为正式组建医疗卫生军团。据悉,医疗卫生军团将重点构建AI辅助诊断解决方案体系,推动医疗大模型在临床场景的应用。华为作为国内领军企业,不管走到哪个行业,都会引发大家的关注,华为+都将是行业龙头,比如华为算力,华为汽车等,现在华为组建医疗卫生军团,这就是华为+医疗,再叠加AI+医疗,后期医药板块会迎来机会,当然重点是跟AI对应,比如医疗、创新药方向等。二、北京:从2025年秋季学期开始 全市中小学校开展人工智能通识教育北京市推进中小学人工智能教育工作方案发布,从2025年秋季学期开始,全市中小学校开展人工智能通识教育,每学年不少于8课时,实现中小学生全面普及。学校可将人工智能课程独立设置,也可与信息科技等课程融合开展。 -
趋势领涨今天 00:26:34
大家早上好!趋势为王,做股海的领航者,新的一天,新的战斗,欢迎你来到本直播室!新进的朋友请注意点赞,收藏本直播室,以方便你下次观看,谢谢大家的支持!【更多独家重磅股市观点请点击】 -
趋势领涨2025-03-07 23:56:04
晚间重大消息:1、美国2月非农就业人数增加15.1万人,不及市场预期;美国2月失业率为4.1%,预估为4%,前值为4%。2、高盛将美国2025年GDP增长预期从此前的2.2%下调至1.7%,摩根士丹利则从此前的1.9%下调至1.5%。3、美联储主席鲍威尔表示,美联储不需要急于调整利率;特朗普政府政策影响的不确定性仍然很高;不会对一两项超出预期的经济数据做出过度反应。4、美股三大指数集体收涨,道指涨0.52%,本周累计下跌2.37%;纳指涨0.7%,本周累计下跌3.45%;标普500指数涨0.55%,本周累计下跌3.1%。热门中概股多数收涨,纳斯达克中国金龙指数涨0.47%,本周累涨4.93%。15、WTI原油期货结算价涨1.02%,报67.04美元/桶,本周累计下跌3.9%;布伦特原油期货结算价涨1.19%,报70.36美元/桶,本周累计下跌3.36%。 -
数字江恩2025-03-07 09:44:18
简单来说,3384后已经震荡了2周时间了,再震荡主要也就是下周一二而已。所以下周前半周关注3336+-10区间支撑,只要不跌破,大盘还会继续向上运行。 -
数字江恩2025-03-07 09:44:12
30分钟图来看,15分钟级别的abc只是将大盘拉回了前三角形的轮谷线位置,而宽幅震荡则是在红色轮谷线下的横盘震荡箱体。下周5分钟图的3336+-10只要不跌破,那么横盘震荡完毕,大盘必将站上红色轮谷线。至于站上红色轮谷线后的首轮高度,下周末再说不迟。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-07 09:44:00
这是3384之后的5分钟震荡结构,简单来说,下周出还可以有震荡,但是不应该明显超过图上第一轮的回踩,即第一轮最低点3337不应该跌破超过10个点了,3336+-10支撑,也就是不有效跌破5周线,这个震荡结构都将要完美而开始新的1上涨。【更多独家重磅股市观点请点击】 -
数字江恩2025-03-07 09:43:47
首先看15分钟图,对前3494的下跌,核心图上蓝色轮峰线不应该再次跌回,本周四拉起来后,以纪念馆不再是问题。预期3140后运行abc+宽幅震荡+12345的结构,目前宽幅震荡并未超出限制,便5分钟图看震荡细部结构。【更多独家重磅股市观点请点击】