这场“最高”层的大模型闭门会都聊了啥？|上海市_新浪财经

《科创板日报》11月8日讯（记者毛明江黄心怡张洋洋朱凌）近5个小时，座无虚席！财联社“上海之巅论道AI”大模型闭门会，近日在中国最高建筑上海中心105层会议厅圆满落幕。

闭门会由财联社TMT主编毛明江主持

在此次会议上，上海人工智能实验室、复旦大学、蚂蚁集团、百度集团等AI领军学者和互联网大厂核心高管在会上做主题演讲。国内外多家人工智能相关上市公司，商汤科技、云从科技、第四范式、浪潮信息、云天励飞、戴尔集团等高管参会。

国内20多家大模型相关新创企业和独角兽创始人及高管参与圆桌交流，包括面壁智能、西湖心辰、智谱AI、达观数据、心识宇宙、墨芯人工智能、OpenCSG、Dify.AI、蜜度、云知声、智子引擎、奇异摩尔、创新奇智、生数科技、恒生聚源、亿铸科技、考拉悠然等。另外还有金沙江创投、源码资本、红点中国等知名投资机构参会交流。

这次会议也是难得的业内交流机会

此外，国泰君安、华泰证券、民生证券、中金资本、上海文化产业发展投资基金、金砖银行、徐汇资本、中国外汇交易中心、上海金融数据港、敦鸿资产、桥麦资本、德必集团等第一时间联系参会并出席。

整个闭门会持续了近5个小时，现场座无虚席，气氛活跃。 “今天活动收获很大，大家交流开放坦诚，尤其圆桌讨论环节，发言嘉宾都是分享干货和行业心声，很精彩。” 一会参会代表会后表示。

圆桌环节参会嘉宾畅所欲言，交流碰撞

本次“上海之巅论道AI”大模型闭门会，会议地点专设在位于陆家嘴的上海中心大厦105层——全世界建筑物内最高的会议厅举行，会议现场大模型业内的“大咖”云集，是一场真正意义上的AI大模型业内“巅峰”盛会。

那么，这场今年下半年国内“最高”层的大模型会议，都聊了啥？

▍被忽视的“工程能力”

“ChatGPT这样的大模型的出现，让一种模型去应对多种任务成为了可能。而要真正把大模型用好，需要强大的工程能力。此外，目前大模型的基础理论还不完备，需要更多的创新力。” 上海人工智能实验室主任助理乔宇教授在主题演讲中表示。

上海人工智能实验室主任助理、领军科学家乔宇做主题演讲

大模型的出现，被认为是开启了通用人工智能落地应用的窗口。在乔宇看来，之前人工智能都是针对特定的问题收集数据，训练一个特定的模型。

“比如语音识别、人脸识别，甚至下围棋和蛋白质结构预测，都是针对专用特定的一件事情训练一个模型。而ChatGPT这样的大模型的出现，可以有一种模型去应对多种任务。现在自然语言大部分任务都用GPT这样的模型可以很好地应对。不仅如此，有了多模态大模型后，视觉，甚至具身智能，与物理世界连接的很多任务，都可以靠一个模型来去做。” 乔宇说。

任何一个大模型背后依赖千卡、万卡的数量支持，乃至千亿甚至万亿参数规模的训练，而这需要很强的工程能力。

“当你拥有一个千卡级的集群，是一个蛮骄傲的事情。但是真正想把这个集群用好是蛮难的事。Meta此前做开源语言大模型，曾遇到过两个月内系统重启了30多次，大概平均一两天要重启一次，这个频度是非常高的。要把如此大的系统做好，是一项大工程。”

除了工程能力，乔宇还谈到，目前大模型的基础理论还不完备，需要更多的创新力。“几乎没有一个很好的理论，能够预测大模型所具备的能力。也没有很好的理论能够完全指挥大模型这么复杂、这么多参数的优化过程。”

▍TO B应用的三大挑战

“大模型对to B市场意义非常重大，它是一次智能引擎的升级。” 复旦大学教授、上海市数据科学重点实验室主任肖仰华的主题演讲，聚焦于大模型在百行千业的应用。

复旦大学教授、博士生导师肖仰华做主题演讲

他认为，现在很多行业真正解决不了的是跨系统、跨边界、跨层级、跨模块的问题，而大模型的跨学科认知能力，使得把这些问题可以交给大模型成为可能。

谈及大模型面向企业服务的机会时，肖仰华认为要重视以下三个方面：

一是大模型需要与现有企业流程无缝融合，需要与现有工具或接口的有效衔接；

二是大模型需要与员工、专家有效协同；

三是大模型需要领域知识注入，以解决“幻觉”问题。

在肖仰华看来，企业做决策需要非常丰富的专业知识，复杂的决策逻辑，宏观的研判能力、综合任务的拆解、严密精细的规划、复杂约束的取舍和未知事务的预见等等，而通用大模型在这些方面的应用还有待挖掘。

“大模型会一本正经地胡编乱造一些虚假事实，这种虚假的‘真实’产生的后果是极其严重的，譬如金融领域的投资、医疗方面的数据，一个小数点之差就有可能酿成大错。”

针对场景化的大模型，肖仰华认为，如财务、客服、HR等场景的大模型，往往只需要大模型的通识能力加上少量的岗位培训，即可胜任。“这实际上可能是变现最快的一种大模型，值得关注。”

▍要看到AI深“黑盒”面

作为互联网大厂分管技术的核心高管，蚂蚁集团CTO、平台技术事业群总裁何征宇在主题演讲中表示，大模型就像新世界的小火花，它是互联网大数据时代发展到一定阶段必然会迸发出来的产物。作为一个新世界的开端，大模型不是目的，甚至只是一个“钻木取火”般产生类人智能的手段。

“今天的人工智能的范式可能还是处于非常早期的阶段。就像‘日心说’和‘地心说’，当人类敢于把自己从中心位置挪开，认知的角度发生改变的时候，往往就是人类文明进步的开始。”

蚂蚁集团CTO何征宇做主题演讲

何征宇同样提到的AI大模型的“幻觉”问题。“人一本正经胡说八道的时候，自己是知道的。但是AI胡说八道的时候，它自己是不知道的。”

因此，他认为，要加强研究AI的安全与可信，重视大模型的风险与挑战：

第一是认知一致性对齐。为什么会有这个担心？因为AI的价值观可能跟人类的价值观从来就不可能对齐，目前看只靠大模型技术本身是不太可能实现这个目标的，除非有搜索增强或者知识图谱，甚至更多技术的帮助。

第二是决策白盒化。如果真的把大模型用到决策系统中，一定是要白盒化。例如，当你在做一笔支付的时候，如果被拒付了，你一定会打电话给客服了解为什么会拒付？如果只能告诉你这是大模型决策的，我相信一定会被投诉。所以大模型要真正用在决策场景，一定要有白盒化的能力。

第三是交流协同演进。市面上有各种通用大模型，但事实上各有特点。人类之所以能够发展到今天，不是因为一两个人的智慧，如何像人类社会一样集百家之长，取得突破进展？我认为需要协作。大模型之间如何能够更好的协作，不是说简单的从语料层面，或者是从API层面去打通，而是大模型之间能够有一个协同演进的机制。

▍华为AI芯片从“备选项”渐成“必选项”

做大模型，算力一直是一个核心讨论话题。伴随着美国最新一轮的封锁制裁，包括英伟达H800在内的芯片对国内出口都受到影响，大模型GPU国产化已成一个必选项。

此前，业界对于国产芯片的一个观点在于，与英伟达的A100等芯片相比还存在较大差距。但美国芯片限制升级以后，国内人工智能产业与大模型企业该何去何从？这个话题也是现场与会者们讨论最有感触的一个话题。

“陪华为走过的历程确实太痛苦了。”一位参会嘉宾在圆桌交流中直言，“现在（华为芯片性能）是到了还不错的阶段”。该嘉宾认为，未来国内大模型发展趋势将会朝着基础软硬件国产化方向发展。

“我们是非常坚定决定要用华为的。”在现场，另一位参会嘉宾从使用效果举了个例子。“公司技术团队最近告诉我，用华为昇腾910训练大模型时，对比英伟达的A800，测评下来发现华为芯片某些方面效果甚至更好。”他自言听到自己技术团队的这个评价“非常意外”。虽然相比之下华为的各种配套（生态和服务），还是存在不小的差距。

浪潮信息首席AI架构师张云龙认为，明年国内企业算力选择会更多元化。在发展大模型应用时，需要同时关注整个产业链生态变化，从上游芯片厂商、中间整机厂商、模型开发和终端客户的业务应用，做全链横向对比，对业务会有更大帮助。

浪潮信息首席AI架构师张云龙

▍应提升国内整体的算力利用率

关于大模型算力，商汤科技联合创始人陈宇恒则从AI基础设施的角度，谈到未来大模型对于基础设施的需求以及可能演进的路径。要达到更好的大模型效果，下一个阶段如何构建万卡乃至十万卡级超大规模的集群，以及面临大量网络的连接问题，是陈宇恒的关心所在。

商汤科技联合创始人陈宇恒

他认为，训练出来的模型无论是千卡规模、万卡规模，最终还是要做高推理的效率。此时，用分布式算力网络的方式是一个解法。

具体而言，人工智能大模型推理，如果用分布式算力网络均衡化的方法，在全国范围内、多数据中心范围内做更多的调度算力，这就可以解决一些大型的C端应用峰值调用，包括训练和推理混合调度等一系列工作，从而提升国内整体的算力利用率和水平。

陈宇恒以商汤科技的实践举例，商汤科技将以大模型推理为抓手，按照“大中心+小中心”的战略，把原先在各处建设的算力中心逐步使用起来。通过人工智能大模型新的应用场景，去推导出未来人工智能基础设施，甚至整个计算机、算力基础设施如何去建，来形成指导作用。

▍AI大模型要“解决客户的实际问题”

在圆桌交流环节，多位嘉宾提到了同样一个观点，那就是“大模型一定要落地” 。

中科院自动化所副研究员、武汉人工智能研究院算法总监吴凌翔发言中直言， “大模型一定要做产业落地”，但这不是为了做营收，而是在使用的过程中会发现还有很多的问题，从而更好去形成数据闭环。

中科院自动化所副研究员吴凌翔

考拉悠然CEO沈复民则提到一个概念，“人工智能不是一个赛道，到现在为止，人工智能还不是一个行业”。他的逻辑在于，人工智能技术一定要落到行业里才能产生价值，因此，大模型技术更需要考虑如何更好、更快落到行业里去。

作为一家创业公司的CEO，沈复民表示，在创业对接客户的过程中的体会包括：一是AI技术必须要对准行业客户需求，解决客户实际的问题；第二是传统AI技术或系统的开发成本非常高。这也就是导致过去AI技术落地时，没有办法高效进行复制。

沈复民认为，大模型不仅具备强大的知识压缩和逻辑推理能力，解决业务问题时，从一个场景复制到另外一个场景的泛化能力更强，迁移的成本相对而言更低。这也强有力的促进了人工智能更好、更快落地行业，实现产业化发展。

▍语言模型和视觉模型结合才更“能打”

对于如何让大模型更好地应用在业务里以及实际场景里去，云从科技联合创始人、研究院院长李继伟认为，从语言模型和视觉模型生成和感知两个层面上做结合，这样也能更快帮助大模型做落地。

云从科技联合创始人李继伟

李继伟在现场举了个例子，云从科技的长尾算法占到公司业务的30%以上，如果按照以前一个模型去处理一个场景的话，代码根本无法胜任。大模型时代之后，一个大模型就通过Next token的预测和训练，就会涌现出很多关联和推理的能力。云从科技希望借助于大语言模型的能力，把视觉语义的分析关联建立起来，推动大模型后续落地。

面壁智能CEO李大海提出，基于大模型的 Agent 技术是一个好的路径，类似于计算机科学里的时间换空间，让 AI 慢下来，通过反思、COT 等技术，整个水平就会与规模更大、训得更好的模型水平相当。除了上述技术之外，跟知识库的结合、调用工具的能力等技术的使用，可以 Agent 的能力边界得到进一步的扩展。

▍“当前对大模型的想象力还不够”

财联社CTO叶周在交流中表示，当前对大模型的想象力还不够。“ChatGPT这样的杀手级应用把大家对大模型思维定式固化在聊天上，微软的copilot把大模型用在生产工具环节，将其定位在助手。但作为拥有大模型技术的人类，想象力要跟得上生产力的提升，而不只是局限于此。”

叶周认为，大模型的出现，整体拉高了跨领域能力水平，同时其信息传递效率高得离谱。“我们如果用上一个时代的生产关系，比如产品经理、项目经理、前端开发、后端开发这样的人类角色，简单套用在大模型上，那就是用前朝的剑来斩本朝的官。可以说，我们的想象力还有很大的扩展空间。”

财联社技术研发负责人叶周

▍国内到底有没有原创大模型？

在对于大模型技术路线的讨论上，开放传神(OpenCSG)CEO陈冉在交流现场抛出“劲爆”性观点：中国目前缺乏真正的原创的大模型。

“我个人理解，中国在整个开源开放基础软件赛道就没有成功的商业模式，从操作系统，包括硬件、数据库、中间件没有一个做开源开放的基础软件公司IPO的，所以要谈单纯做大模型有没有一家IPO公司？我的答案是很难。” 陈冉认为，中国有广泛的应用，互联网成就了那么多的应用公司，在大模型应用领域会有生态型和平台型IPO的公司出现。

开放传神(OpenCSG)CEO陈冉

对于国内大模型有没有原创的问题，蚂蚁集团CTO、平台技术事业群总裁何征宇接过话题表示，“原创这个东西，要看怎么去理解。我觉得非原创也是可以的，而且后来者也有后来者的优势。”

他举了蚂蚁在研发大模型走过的路作为例子。 “我们并没有直接去抢时间，来复刻GPT的成功。我们当时调了很多卡同时并行测试不同模型结构、不同语料，测试涌现的东西在哪儿。我们开始走了很多弯路，都没有采用Transformer的架构。”

在何征宇看来，第一名已经做出来了，第二名有第二名的红利，因为“第二名不用试错了。”

吴凌翔则认为，中国是否有原创的大模型也跟基于国产软硬件的大模型紧密相关。“之前基于国产软硬件的大模型比较少，大家大多是基于英伟达的，彻底被限制之后才开始转向国产计算卡。”

▍OpenAI 正在让AI从toB走向toC

闭门会的前一天，正逢OpenAI开发者大会，这场“ AI 春晚”也是现场热议的话题。

面壁智能 CEO 李大海在分享中谈到， OpenAI 现在非常关注 Agent 这个方向。Agent 并非新概念，但有了大模型以后，基于大模型的 Agent，其实用性、想象空间都比以前大很多。”

“大语言模型更像是人脑子里的系统1，问一个问题它马上给回答。但是人的整个大脑结合在一起不是这样工作的，他有大脑、小脑和海马体去负责记忆，它有快系统、慢系统，这些综合在一起之后，才能形成一个人的综合行为。”

面壁智能 CEO 李大海

使用了 Agent 的相关技术，OpenAI 能够更方便开发者们进行二次开发，对生态的发展非常有好处。

面壁智能很早就在 Agent 方向进行了布局，开发了面壁智能自己的 "Agent 三架马车"，既有很好的单体智能的应用，又有不错的多体智能的探索。

第四范式大模型总架构师袁徐磊说自己“很兴奋”，但“也很恐慌”。兴奋之处在于，自己和团队正在做的很多工作，在OpenAI这里得到了印证。恐慌之处在于，OpenAI的模型能力很强，它现在做的很多事情，是袁徐磊和团队正在做的。如今OpenAI已经卡位前排，国内的企业会不会被甩开？这个赛道国内会不会进去？袁徐磊说自己当天晚上一直在思考这个事情。

第四范式大模型总架构师袁徐磊

吴凌翔很多同事告诉她，他们当晚一个晚上没睡觉，激动、感慨等各种心理交织。她说，可以看到OpenAI正在让AI逐渐从2B走向2C，AI的门槛正在降低，玩家越来越多，从业者们也走得越来越快。她认为，AI产业落地和前沿探索是可以并行往前高速发展的道路。

▍算力、AIPC与AI安全

在本轮AI大模型热潮中，作为IT基础架构或者信息硬件的厂商的戴尔、联想等并没有袖手旁观。一位硬件厂商参会嘉宾在交流中表示：

许多硬件生成厂商并没有推出自己的大模型，也不会成为一个纯AI公司，许多计算机厂商更多还是从算力的角度来看这个问题。

一、企业对算力要求持续增长，正诞生出新的商业模式，叫算力租赁的模式。这样对于大模型初创公司，不需要一开始大规模投入资金来购买GPU和服务器，这是我们的新服务模式。

二、现在各大厂商都在酝酿推出一个AIPC 。明年会是AIPC上市最主要的一年，包括英特尔、联想等很多公司。AIPC是指在电脑里也可以用到大模型的功能，这涉及的技术是大模型要轻量化，要进行模型的裁减、量化，对参数进行减少，因为PC有计算的限制或者存储的限制，这种情况下如何对大模型进行裁减？这也是重点关注的。

三、信息安全。美国总统已发布行政指令，要推出零信任机制，对所有信息系统没有信任，要持续验证、持续认证，从以前的黑名单走成白名单，在AI系统里零信任机制也会得到应用。相信在将来中国也会推出类似的AI规范信息要求，这可能在未来也会是非常重要的方向。AI信息的安全，AI模型可控，这不是要不要做，而是必须要做的。

▍“脚踏实地与仰望星空”

生数科技CEO唐家渝分享了如何看待国内大模型现状以及落地问题。

生数科技CEO唐家渝

概括起来就是脚踏实地与仰望星空：

首先说脚踏实地。现在大模型领域，尤其是多模态大模型的发展还处于非常早期的阶段。比如GPT4的语义理解能力已经很强了，但在一些细分专业的问题上，类似于给一个产品取名字这种，其结果的可控性以及链接知识的能力还是弱一些的。

再比如图像生成中，用户通常需要不断修改描述词，才能生成符合预期的画面，而现阶段3D、视频生成的内容，可控性差的就更多。所以单从可控生成这个角度来说，大模型的发展就还有很长的路要走，更别说打造真正的多模态理解+综合性生成的智能体，其中存在的技术难点更多，例如如何解决多模态数据的统一表示、特征提取以及信息理解等。

但从技术发展趋势来看，多模态融合是人机交互未来的必然趋势。因此我们团队是非常坚定投入多模态大模型方向，并在底层做非常大的投入。这背后也主要依赖于我们核心成员来自清华大学，是国内最早从事生成式AI研究的团队之一。

其次是仰望星空。现阶段大模型的发展还处于早期，但不能说它是个小孩就只能任由他慢慢成长。我们是一家创业公司，面向未来需要有持续商业化的收入，来维持公司的长期发展，这个过程当中需要我们持续思考的事情就是如何将技术做产品化。

现阶段多模态大模型主要围绕生成的能力，最简单的就是各种内容创作，比如快速生成图像、3D、视频等，但未来可延伸做更多可交互式的体验，比如说像我们现在看剧，剧集内容都是固定的，是单向交互的，但未来依托多模态能力刷剧可能变成沉浸式的话剧一样，是可以实时交互的，剧情内容是可以个性化生成的。

但就像人类刚发现火的时候，很难想象未来会有火箭、烟花之类的东西出现，所以在大模型发展的过程中，如何打造出具有领先性、颠覆性的产品，除了持续推进技术能力的成熟，还需要我们打开想象力，让想象力走的更快一步。

另外从技术角度来说，我们也持续在想如何在保障技术产品领先的基础之上，通过算法、架构等方面的优化做到更小算力消耗，获得更大成本优势，这方面我们也做了非常多的工作。