【西部通信】AI行业跟踪35期:MultiOn发布AI Agent Q,谷歌AI手机Pixel 9抢先落地

【西部通信】AI行业跟踪35期:MultiOn发布AI Agent Q,谷歌AI手机Pixel 9抢先落地
2024年08月19日 16:42 市场投研资讯

▍特别声明

特别声明《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》于2017年7月1日起正式实施。通过新媒体形式制作的本公众号推送信息仅面向西部证券的专业投资者。若您并非西部证券的专业投资者。请取消关注本公众号,不再订阅、接收或使用本公众号中的任何推送信息。因本公众号受限于访问权限的设置,若给您造成不便,烦请谅解!感谢您给予的理解与配合。

行业要闻追踪

初创公司MultiOn发布高效AI Agent Q,智能体是大模型落地的核心交互介质。我们认为,智能体应用正处于快速增长期,市场格局尚未明确,开发门槛仍需进一步降低。为争夺份额,以字节跳动、阿里、百度和腾讯为代表的厂商平台纷纷加入价格战,调整了旗下大模型产品的定价策略。与此同时,当前许多平台存在操作流程繁琐、界面不友好等问题。复杂的功能设置和参数调整让用户感到困惑,增加了使用的难度和学习成本,仍有较多待优化的地方。

谷歌Gemini Live抢先落地,AI手机军备竞赛加剧。我们认为,随着谷歌抢跑推出Gemini Live,有望进一步加剧端侧AI的军备竞赛力度。近一年来已经发布的 AI手机,各大厂商均把大模型当作了自己的核心宣传卖点。从需求侧看,用户的需求在于AI而非“AI噱头”,仅有真正提升用户体验感的AI功能才能够激发尝鲜热潮过后的长期需求。

行情回顾

本周(08.12-08.16),我们构建的西部AI股票池中,其中108家A股公司整体周平均涨幅1.76%, 59家美股公司整体周平均涨幅7.03%。A股各板块呈现不同涨幅,液冷散热板块上涨3.74%,光模块板块上涨3.27%。美股各板块全面上涨,其中光模板块涨幅最大,上涨14.17%,服务器板块上涨13.19%。根据西部通信股票池,A股市场中本周(08.12-08.16)涨幅居前十的个股分别是富春股份(维权)(+52.55%)、飞荣达(+9.68%)、胜宏科技(+9.19%)、锐捷网络(+8.19%)、天孚通信(+7.74%)、永鼎股份(+7.20%)、天源迪科(+6.97%)、海光信息(+6.71%)、荣联科技(维权)(6.68%)、中际旭创(+6.60%)。美股市场中本周(08.12-08.16)涨幅居前五的个股分别是超微电脑 (+23.59%)、BuzzFeed(+22.51%)、Coherent(+20.98%)、戴尔科技(+20.25%)、Lumentum控股(+20.19%)。

投资建议:

AIGC和数字中国共振,算力托底建议重点关注AI算力硬件,关注光模块(中际旭创、天孚通信、源杰科技等);散热领域(英维克)及ICT设备商等

风险提示:

技术落地不及预期、硬件设备市场接受度不及预期、监管政策风险、中美贸易摩擦风险

 内容目录

1

AI行业重要事件点评

1.1初创公司MultiOn发布高效AI Agent Q,智能体是大模型落地的核心交互介质

事件初创公司MultiOn最近发布了号称“目前最强”的Agent Q,在真实的预订任务中可以达到95.4%的成功率

点评1:技术端,Agent Q拥有规划、推理能力,以及自我修复功能,解决了此前LLM训练技术的局限性近年来,虽然LLM已经彻底颠覆了NLP领域并取得了显著成就,但在交互环境中仍面临重大挑战,尤其多步推理任务,如网页导航。当前依赖静态语言数据集的训练方法,不足以使这些模型适应动态的现实世界互动。Agent Q的出现是AI智能体领域的一个重大里程碑,其结合了搜索、自我反思和强化学习,能够进行规划和自我修复。它的训练方法结合了蒙特卡洛树搜索(MCTS自我批评,并且通过一种叫做直接偏好优化(DPO的算法来学习人类的反馈,解决了之前LLM训练技术的局限性,使其能够实现自主网页导航。与此同时,作为拥有规划和 AI 自我修复功能的下一代 AI 智能体,Agent Q 的性能是 LLama 3 基线零样本性能的 3.4倍。同时,在真实场景任务的评估中,Agent Q 的成功率达到了 95.4%。其关键组件包括:

1)基于MCTS的引导式搜索:通过探索不同的行为和网页自主生成数据,并在探索(exploration)和利用(exploitation)之间取得平衡。MCTS使用较高的采样温度和多样化提示词来扩展行为空间,确保能收集到多样化且最优的轨迹。

2)AI自我批评:每个步骤中,基于AI的自我批评都能提供有价值的反馈,从而优化智能体的决策。这种步骤级反馈对于长周期任务至关重要,因为稀疏信号往往导致学习困难。

3)直接偏好优化:DPO算法通过构建由MCTS生成数据的偏好对来微调模型。这种off-policy的训练方法允许模型从聚合数据集中有效学习,包括搜索过程中探索的次优分支,从而提高复杂环境中的成功率。

点评2:测试实验中,研究者设定了模拟网上商店和模拟订餐实验检验Agent Q在真实世界中的表现1)在实验1模拟商店(WebShop)实验中,基于xLAM-v0.1-r模型构建的用于模拟网上商店的任务中,agent需要进行搜索以找到特定商品。虽然RFT、DPO和集束搜索等方法也能实现一定提升,但幅度不及AgentQ。如果同时使用Agent Q和MCTS方法,任务成功率即可从28.6%提升至50.5%,相当于平均人类水平50%。2)在实验2模拟订餐任务(Open Table)真实预订任务中,Agent Q需要执行多个步骤,包括找到对应的餐厅页面、选择合适的日期时间、根据用户偏好选择合适的座位、提交用户的联络方式,最后完成任务。这个复杂度较Webshop上了一个台阶。根据实验后的统计,完成Webshop任务的平均步骤为6.8,Open Table则翻了一倍达到13.9。由于Open Table并非模拟数据集,而是真实的在线环境,很难进行自动化评估,因此论文使用了GPT-4-V作为评估者,根据预先定义的指标对agent每个步骤的操作给予奖励值,并标记任务是否完成。Agent Q将LLaMa-3的零样本成功率从18.6%提升至81.7%,分数提高比例达340%,而且仅经过了一天的自主数据收集。加入在线的蒙特卡罗树搜索后,成功率能进一步提高到95.4%。

点评3:头部企业相继推出智能体,智能体是大模型落地的核心交互介质2024年1月,OpenAI推出名为GPT Store的平台,允许用户创建、发现和使用针对各种目的定制的GPT,进一步降低了AI智能体应用的开发和使用门槛。国内多家互联网大厂也纷纷布局,如字节的扣子、腾讯的元器、以及百度的APPBulider等,这些AI应用商店不仅可以创作AI智能体产品,还可以对创作出的产品进行分发。7月30日于上海举办的2024京东云峰会上,京东正式发布一站式智能体开发平台,言犀智能体平台。京东云判断,智能体、数字人、具身智能是未来大模型与终端用户的核心交互介质。百度CEO李彦宏在WAIC 2024演讲中表示,“智能体是我们最看好的AI应用发展方向,搜索是智能体分发的最大入口”。而在2024春季火山引擎 FORCE 原动力大会上,扣子产品经理潘宇扬介绍,扣子作为字节跳动推出的新一代AI应用开发平台,会填补大模型到用户场景的最后一公里。

我们认为,智能体应用正处于快速增长期,市场格局尚未明确,开发门槛仍需进一步降低。据MarketsandMarkets数据,2019年全球自主智能体市场规模为3.45亿美元,预计到2024年将达到29.92亿美元。当前市场格局尚不明晰,为争夺份额,以字节跳动、阿里、百度和腾讯为代表的厂商平台纷纷加入价格战,调整了旗下大模型产品的定价策略。与此同时,当前许多平台存在操作流程繁琐、界面不友好等问题。复杂的功能设置和参数调整让用户感到困惑,增加了使用的难度和学习成本,仍有较多待优化的地方。

1.2 谷歌Gemini Live抢先落地,AI手机军备竞赛加剧

事件北京时间8月14日谷歌Made by Google年度发布会如期举行,发布了四款 Tensor G4 Pixel 9 AI 手机,并公布了谷歌 Gemini 的最新进展。会上谷歌发布了对标Gpt-4o高阶语音版的Gemini Live,并且针对所有的Gemini Advanced用户开放。端侧系统级应用数据联动功能则优先苹果落地。谷歌的先进版AI助手Gemini Live现已在三星智能手机上推出,甚至早于Pixel9系列的发布。这意味着三星智能手机和平板电脑成为首批体验Gemini Live的设备。但Gemini Live目前仅对Gemini付费版订阅用户开放

点评1:谷歌Pixel手机深度融合了AI技术,探索手机+AI新样态。谷歌此次年度发布会介绍了Pixel 9系列的AI驱动的新功能,重点包括内置的AI助手Gemini Live、增强的照片处理工具、图像生成器、定制的天气预告、屏幕截图信息回忆、保存通话中的记录和细节等。其中,关于具备多模态识别能力的智能语音助手Gemini Live,用户可以通过文本、图像或语音与其进行交流。Gemini Live对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式(限量 Alpha 测试),采用了增强型语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。

点评2:Gemini Live的核心特性在于其自然、流畅的交互体验,并与其他应用程序和工具连接。用户能够像与普通人交流一样,与这个AI助手进行连续对话。并且用户可通过打断对话来获取更多信息,并在稍后继续之前的话题。这种人性化的互动设计给用户带来前所未有的智能助手使用体验。然而,当前的Gemini Live尚未与谷歌的其他服务(如日历、云端硬盘、Gmail、Keep、YouTube和YouTube Music)实现深度集成。谷歌表示,这些功能将在未来几个月内逐步上线,此后用户就无需耗费功夫在应用程序和服务之间切换。在界面设计上,Gemini Live遵循简洁明了的原则,占据整个屏幕但会显示后台的其他应用。此外,用户还可以从十种声音选项中选择Gemini Live的语音,并在应用设置中切换“打断实时响应”功能。目前,Gemini Live仅支持英语版本,但谷歌已承诺将在未来几个月内推出对其他语言的支持。

点评3:谷歌版Her抢跑,直接挑战OpenAI的GPT-4o语音模式。OpenAI早在3个月前就已经公开介绍过的GPT-4o,至今尚未完全落地。2024年7月31日,OpenAI宣布开始向小部分ChatGPT Plus用户,测试GPT-4o的高级语音模式,其允许用户在对话过程中打断,并能感知和回应用户的情绪波动。在语音设置方面,Open AI提供了四种声音,均与专业的配音演员合作制作.

点评4:安全性风险可能影响相关技术、产品推出。8月9日,OpenAI发布了一篇关于安全性的博客文章,详细介绍了公司在开发GPT-4o时所做的安全努力,并探讨了这些技术可能对社会带来的风险。OpenAI在该报告中指出了人工智能的类人社交模式可能造成的风险。OpenAI认为,用户可能会与人工智能建立社交关系,而减少对人类互动的需求。这有利于孤独的个体,但会影响健康的人际关系。此外,OpenAI还提到,GPT-4o有时会无意间生成模仿用户声音的输出,这意味着,AI语音引擎可能会被用来欺诈。

我们认为,随着谷歌抢跑推出Gemini Live,有望进一步加剧端侧AI的军备竞赛力度。此前,华为发布Mate60系列内置盘古大模型,vivo X100系列搭载蓝心大模型,OPPO Find X7系列搭载了AndesGPT大模型,小米14 Ultra采用了自研的Xiaomi AISP AI大模型。近一年来已经发布的 AI手机,各大厂商均把大模型当作自己的核心宣传卖点。从需求侧看,用户的需求在于AI而非“AI噱头”,仅有真正提升用户体验感的AI功能才能够激发尝鲜热潮过后的长期需求。

投资建议:多模态大模型发展推动智能体性能提升,AI 训练和推理需求将进一步升级。伴随摩尔定律遇到瓶颈,算力互联技术的进步的重要性愈发显著。建议关注AI 算力互联核心受益标的,关注光模块公司中际旭创、天孚通信和散热标的英维克等。

2

AI行业动态一览

2.1 国外行业动态

(1)AI硬件&基础设施

【AMD完成Silo AI的收购,在欧洲市场有望超过NVIDIA】

AMD近日宣布完成了对欧洲最大的私人AI实验室Silo AI的收购,交易价值约6.65亿美元,约合48亿元人民币,全部以现金支付。Counterpoint研究副总监Mohit Agrawal指出,这一战略性收购预计将显著增强AMD在人工智能领域的软件性能,并有可能使其在欧洲市场超越竞争对手NVIDIA。此次收购不仅为AMD带来了约300名人工智能专业人士,还引入了Silo AI的SiloOS和MLOps功能,为客户提供更全面的端到端AI解决方案。AMD将能够提供从AI实验到可扩展生产模型的简化路径,这将有助于AMD在计算基础设施之上开发服务层,创造新的收入来源并提高客户黏性。(信息来源:快科技,C114通信网)

(2)大模型

英伟达剪枝、蒸馏出 Llama-3.1-Minitron 4B AI 模型

英伟达联合Meta发布了最新的 Llama-3.1-Minitron 4B AI 模型,主要通过结构化权重剪枝、知识提炼等尖端技术,成功蒸馏(Distill)出 40 亿参数的“小而强”模型。

Llama-3.1-Minitron 4B 模型在 Llama-3.1-Minitron 8B 基础上蒸馏而来,英伟达在深度和宽度方向上使用了结构化剪枝技术。剪枝是一种删除网络中不那么重要的层或神经元的技术,保留其性能的情况下,目的是减小模型的大小和复杂度。英伟达通过从模型中删除 16 层来进行深度剪枝,并将其从 8B 模型缩减为 4B 模型,此外还部署另一种技术,通过修剪嵌入维度和MLP 中间层来进行宽度剪枝。

除了剪枝,Nvidia 还采用了经典蒸馏技术来提高 Llama-3.1-Minitron4B 的效率。知识蒸馏是一个过程,在这个过程中,一个较小的模型(即学生)会被训练成模仿一个更大、更复杂的模型(即教师)的行为。通过这种方式,较小模型中保留了原始模型的大部分预测能力,但速度更快,资源更节省。(信息来源:IT之家)

2.2 国内行业动态

1)算法&模型

阿里通义宣布开源音频语言模型Qwen2-Audio

阿里通义大模型再次宣布开源新模式,Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。该模型在多个权威测评中明显超越先前最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准,相关论文已入选本周正在举办的国际顶会ACL 2024。据介绍,Qwen2-Audio是通义团队在音频理解模型上的新一步探索,相比前一代模型Qwen-Audio,新版模型有了更强的声音理解能力和更好的指令跟随能力。Qwen2-Audio具备语音聊天和音频分析两种使用模式,前者是指用户可以用语音向模型发出指令,模型无需自动语音识别(ASR)模块就可理解用户输入;后者是指模型能够根据用户指令分析音频信息,包括人类声音、自然声音、音乐或者多种信号混杂的音频。Qwen2-Audio能够自动实现两种模式的切换。(来源:C114通信网

(2)基础设施&工具

华为AI训推全流程工具链ModelEngine亮相

ModelEngine 是华为 DCS(Data Center Stack)全栈的 AI 训推全流程工具链,业界首个采用 AI 流式编程框架,提供从数据处理、知识生成,到模型微调和部署,以及 RAG 应用开发、应用部署,为数据处理工程师、模型工程师、应用开发者提供开箱即用的全流程 AI 开发体验。(来源:C114通信网,IT之家)

昆仑万维(维权)发布全球首个AI流媒体音乐平台Melodio

昆仑万维正式发布全球首个 AI 流媒体音乐平台 Melodio,并同步推出 AI 音乐商用创作平台 Mureka。用户根据此刻的场景或心情在 Melodio 输入 Prompt(提示),Melodio 便会持续生成相应风格的定制化音乐。用户在 Melodio 音乐生成与播放过程中可以随时修改输入文案,改变音乐生成内容,还能够实时查询生成的歌词,并对于喜欢的片段进行保存、分享。(来源:C114通信网,IT之家)

2.3 行业展会/大会前瞻梳理

2024 NEPCON ASIA亚洲电子展将于11月6-8日在深圳国际会展中心(宝安)举办

本届展会预计汇聚来自全球600+高质量展商,综合呈现全球电路板组装、半导体封测、自动化及智慧工厂的创新技术及先进解决方案,帮助国内外全品类电子生产企业优化供应链,实现降本增效、拓展视野,促进亚洲电子制造产业链通力协作,打造一场集展示创新汇聚、前沿体验、促进交流、趋势探索、跨界合作于一体的电子制造行业盛会。(C114通信网

AIAC 2024人工智能应用大会将于9月19日在北京召开

AIAC 2024人工智能应用大会将于2024年9月19日在北京举办,旨在搭建政产学研用多方合作交流平台,促进人工智能技术与产业融合发展。本次大会以“释放AI应用价值,发展新质生产力”为主题,将汇聚400+行业精英,展开丰富多样的主题演讲、圆桌讨论、颁奖典礼、项目路演、产品展示、供需对接等活动。深入探讨人工智能技术的最新研究成果、行业应用案例、商业模式创新以及面临的诸多挑战。(信息来源:荟巨动力)

3

AI行情回顾:美股光模块领涨

2024年8月12日-2024年8月16日,我们构建的西部AI股票池中,其中108家A股公司整体周平均涨幅1.76%, 59家美股公司整体周平均涨幅7.03%。A股各板块呈现不同涨幅,液冷散热板块上涨3.74%,光模块板块上涨3.27%。美股各板块全面上涨,其中光模板块涨幅最大,上涨14.17%,服务器板块上涨13.19%。根据西部通信股票池,A股市场中本周(08.12-08.16)涨幅居前十的个股分别是富春股份(+52.55%)、飞荣达(+9.68%)、胜宏科技(+9.19%)、锐捷网络(+8.19%)、天孚通信(+7.74%)、永鼎股份(+7.20%)、天源迪科(+6.97%)、海光信息(+6.71%)、荣联科技(6.68%)、中际旭创(+6.60%)。美股市场中本周(08.12-08.16)涨幅居前五的个股分别是超微电脑 (+23.59%)、BuzzFeed(+22.51%)、Coherent(+20.98%)、戴尔科技(+20.25%)、Lumentum控股(+20.19%)。

4

投资建议:持续关注AI应用和算力基础设施

AIGC和数字中国共振,算力托底国内智算中心的加速部署,催化AI服务器、交换机、光模块、光芯片、温控设备等核心环节需求增长和技术加速升级。建议重点关注AI算力硬件,关注光模块(中际旭创、天孚通信、源杰科技等);散热领域(英维克)及ICT设备商等。

AI应用的发展是影响AI板块估值的核心矛盾。AI行业目前仍处在产业初期,整体处在行业曲线的上升阶段。在AI产业高速成长初期,投资逻辑上来看核心关注应用端增量需求的创造,投资节奏来看,前期是算力基础设施建设和大模型训练先行,后期重点关注应用持续强化带来机会。

技术落地不及预期、硬件设备市场接受度不及预期、监管政策风险、中美贸易摩擦风险。

▍研究报告信息

证券研究报告:《AI行业跟踪35期:MultiOn发布AI Agent Q,谷歌AI手机Pixel 9抢先落地》

对外发布时间:2024年8月18日

报告发布机构:西部证券研究发展中心

分析师姓名:陈彤

分析师职业编号:S0800522100004

邮箱:chentongg@xbmail.com.cn

▍免责声明

本公众号推送内容仅面向西部证券股份有限公司(以下简称“西部公司”)机构客户,请勿对本公众号内容进行任何形式的转发。若您并非西部证券机构客户,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!西部证券不会因订阅本公众号的行为或者收到、阅读本公众号推送内容而视相关人员为客户。

本公众号内容基于已公开的信息编制,但作者对该等信息的真实性、准确性及完整性不作任何保证。本公众号所载的意见、评估及预测仅为出具日的观点和判断,该等意见、评估及预测在出具日外无需通知即可随时更改。在不同时期,西部证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。同时,本公众号所指的证券或投资标的的价格、价值及投资收入可能会波动。西部证券不保证本公众号所含信息保持在最新状态。对于西部证券其他专业人士(包括但不限于销售人员、交易人员)根据不同假设、研究方法、即时动态信息及市场表现,发表的与本公众号不一致的分析评论或交易观点,西部证券没有义务向本公众号所有接收者进行更新。西部证券对本公众号所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。

在任何情况下,本公众号所载的观点、结论和建议仅供投资者参考之用,并非作为购买或出售证券或其他投资标的的邀请或保证。客户不应以本公众号取代其独立判断或根据本报告做出决策。该等观点、建议并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对客户私人投资建议。投资者应当充分考虑自身特定状况,并完整理解和使用本公众号内容,不应视本公众号为做出投资决策的唯一因素,必要时应就法律、商业、财务、税收等方面咨询专业财务顾问的意见。西部证券以往相关研究报告预测与分析的准确,不预示与担保本公众号及西部证券今后相关研究报告的表现。对依据或者使用本公众号及西部证券其他相关研究报告所造成的一切后果,西部证券及作者不承担任何法律责任。

本公众号版权仅为西部证券所有。未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号版权。如征得西部证券同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“西部证券研究发展中心”,且不得对本公众号进行任何有悖原意的引用、删节和修改。如未经西部证券授权,私自转载或者转发本公众号,所引起的一切后果及法律责任由私自转载或转发者承担。西部证券保留追究相关责任的权力。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91610000719782242D。

海量资讯、精准解读,尽在新浪财经APP

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 08-26 富特科技 301607 --
  • 08-23 益诺思 688710 --
  • 08-20 成电光信 920008 10
  • 08-19 佳力奇 301586 18.09
  • 08-15 小方制药 603207 12.47
  • 新浪首页 语音播报 相关新闻 返回顶部