梅涛:大语言模型下半场比拼的是商业化落地和应用

梅涛:大语言模型下半场比拼的是商业化落地和应用
2023年09月15日 14:25 市场资讯

  2023中国AIGC创新发展论坛于2023年9月4日在北京召开,加拿大工程院外籍院士、HiDream.ai创始人兼 CEO梅涛先生出席并发表演讲。

  以下为演讲实录:

  2023中国AIGC创新发展论坛于2023年9月4日在北京召开,加拿大工程院外籍院士、HiDream.ai创始人兼 CEO梅涛先生出席并发表演讲。

  首先非常荣幸来到服贸会的现场,跟大家一起分享在大模型时代创业的一些心得,也非常开心见到老朋友、认识新朋友。

  由于今天的演讲时间有限,我先抛出三个简要观点。第一,在大语言时代GPT架构已经成为工业界一个标准的framework。也就是说,在大语言模型的环境下,下半场基本上比拼的是商业化落地、应用以及资源。第二,大模型已经从单一模态迅速进入到多模态,也就是说从原来的单一语言模态进化到文本、图片、视频、3D的多种模态的生成和生产。但是在这个领域里仍然没有形成一个标准化的工业框架。大家也许听说过在图片生产领域用得比较多的是Diffusion Model(扩散模型),3D用得比较多的是NeRF(一种基于神经网络的3D 重建技术),但我们还没有一个统一的框架能把所有的多模态内容形成工业化标准。因为这其中有很多技术上的不确定性,正因如此,才给到我们初创企业更多的机会。第三点,虽然我们HiDream.ai成立只有不到半年,但是我们正在以中国企业的创新加速度进入这个市场,这几个月来在小步快跑、迅速迭代。我们的目标是在年底达成百亿级的多模态大模型,目前在 3 个月的时间内,我们自研大模型的量级已经超过 60 亿。

  刚才给大家播放的短片中所包含的所有视频、图片、运镜都是由我们 HiDream.ai 的创作工具 Pixeling(www.hidreamai.com) 生成的,没有用到任何第三方软件。做这样一个视频概括起来包含这几个步骤:脚本、分镜、关键帧、镜头以及视频的合成。在过去需要较高的人力、时间和金钱成本。但今天通过AIGC创作工具已经可以让1-2 个学生在一周内做好。这就是AIGC,并不是说要取代现在的人工,而是真的要提高效率,降低成本,提升用户体验,从而释放用户的想象力和创造力。虽然这个视频的质量还有待提升,AI 生成工业级的影片还有很长的路要走,但我们做的这样一个实验让我们看到了AI 在辅助内容创作领域更多的可能性。

  AIGC已经迅速从单一模态进入到多模态时代。这里有两个例子,第一个例子是美国一家杂志用 AI 生成图片做杂志封面;另外一个故事是大家所熟知的,用 AIGC 工具生成的作品能参加美国的摄影比赛并获得大奖。这两个例子所代表的 AIGC 创作当然引发了很多争议,但我今天想讲的并不是争议,而是讲未来。

  我问过GPT-4一个问题,在文艺复兴时期人类究竟产生多少件作品?它告诉我人类可能产生不到一百万张各种各样的作品,留存到现在的可能不到二十万件。在过去几年大家可以看到人类因互联网时代的加持,每天生产的图片不计其数,每年产生的图片在1700 到 1800亿张这个范围。而AIGC的图片生产量从2021年到现在已经超过300亿,到2026年很有可能AI 生成的图片数量会超过人类创作的图片数量。这个是很“恐怖”的事情,不仅是对算力的大量需求,对算法也有大量需求,我们作为创业公司要抓住这一波增量去赋能在做的事情。

  我们也仿照着自动驾驶,把 AIGC 分为L1到L5的几个等级。我们认为目前AIGC还处于L2-L3的过渡阶段,多模态时代下,我们的目标是希望能够拿到更多的多模态数据,通过一个很强大的框架能支持不同种类的内容生成。

  其实很多人会问,如果GPT能做单一模态的话,是不是也能把多模态的事情给做了?其实答案是否定的。首先是视觉生产的encoder 很难做好。文本里面单词跟单词之间有空格,天然就形成一个token,每个token的含义和语义是非常明晰的。但在视觉领域,对于图片和视频来说,没办法非常清晰地定义一个token。第二个难点就是decorder,今天视觉生产里面用得最多的是Diffusion model(扩散模型),天花板蛮低,目前最大的生成式模型大概也就是30亿-40亿的参数规模。第三个难点是alignment(对齐),今天在训练视觉模型遇到一个最大的问题就是数据量的问题,我们高质量的文本和图片的配对、或者视频和图片的配对。

  这三种原因造成AI生成图片的一些不足。首先是细节问题,比如人脸、微表情、手指,在生成动物的时候也发现有这样的细节问题,也就是所谓的“恐怖谷”效应。第二个问题刚才很多嘉宾也讲过,因为大模型的量级高达几千亿,不知道怎样更好地进行人机对话,怎样更好地去写 prompt,甚至诞生了 prompt engineer 这样的职业。如果 prompt 写得不够好,就无法让 AI 更好地理解人的意图,也就不能生成让人满意的作品。第三个挑战,也是很多的客户提到的问题,就是可控性。在生成的时候,不管是语言模型还是视觉模型,最大的问题就是IP、SKU不能变。在保证IP 和 SKU百分之百不变的情况下,还要生成一个融入感特别自然的图片,是非常大的挑战。

  今天我们看GPT的发展,其实一直都还没有到天花板,有一天GPT把所有人类高质量的文本读完以后,可能可以看到它的天花板在哪里。视觉AIGC的天花板其实也蛮高的,今天相当于GPT-2的时代,Stable Diffusion的模型参数是在30-50亿。HiDream.ai虽然成立只有3个月的时间,但是我们已经做到60亿的数据量级,我们希望探索一个基于视觉的多模态底层大模型,能让视觉 AIGC从GPT-2时代进入到GPT-3时代。我个人坚信,因为人类的图片、视频内容非常丰富,理论上来说我们未来的视觉大模型要远远大于语言模型,当然视觉大模型的挑战也会更大。

  下面给大家举几个例子,我们的产品叫Pixeling,已经可以生成像品牌调性、版权图片、材质特写、模特换装、商品摄影等效果。这就是刚才讲的,我们已经可以用正确的prompt产生一个非常有3D感觉的剪纸、带有中国文化的陶瓷、甚至于大场景效果。

  讲到落地,我们今年会更关注在科技领域的落地,包括现在正在深耕的电商行业。电商每年都有几十亿的SKU要更新换代,每一个SKU都要很多张的详情图片。用户提供的SKU图片,通过结合用户给的prompt和给定的背景图可以生成与背景无缝衔接融合的图片。还有一种方式,用户只需要给到 SKU图片,不需要给到背景图,我们就可以把商品一键生成在不同的背景中,几秒钟就可以做完。前段时间我走访了几十家电商,他们的设计师非常痛苦,因为生成图片的流程非常繁琐,痛点非常多,用国外的图片生成工具非常不方便,但是用我们的Pixeling创作工具就可以很快完成。除了文字生成图片,Pixeling还可以将文字或图片生成视频,比如女孩子荡秋千这个视频,我们可以把整个的前景和背景都做到很融洽的互动。椰子树的树叶随着秋千也在做摆动。

  当然我们也参加了一个小小的客观评价,香港中文大学有一个数据集评测标准,有3200个prompt在四个风格中进行评测,可以看到我们HiDream.ai跟目前最好的Midjourney v5的差距已经很小。有几个关键指标,第一个是图片和prompt之间的语义相关性,即生成的图片到底是否是用户想要的。第二个是美感,即生成的图片到底是不是非常有质感、高逼真、高清晰。第三是人的主观评测,当一个人在面对不同工具生成的结果时,他更倾向于认为哪张图片更好看。从这个客观的评测中大家可以看到,虽然HiDream.ai 刚刚成立不到半年的的时间,但进展还是非常快的。

  我们的产品Pixeling已经上线,大家如果有兴趣可以申请体验(www.hidreamai.com),在 Pixeling 上尝试用文字生成图片、文字生成视频,以及视频编辑功能,比如对用户上传的视频做风格迁移、对视频中的一些元素进行修改,生成新的视频。

  这就是我今天的分享,希望能跟各位一起共建AIGC生态,这样才能够让中国的企业能在激烈的环境下生存下去,谢谢。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:梁斌 SF055

VIP课程推荐

加载中...

APP专享直播

1/10

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间

7X24小时

  • 09-22 中集环科 301559 --
  • 09-21 浩辰软件 688657 --
  • 09-19 三态股份 301558 --
  • 09-18 爱科赛博 688719 69.98
  • 09-14 恒兴新材 603276 25.73
  • 新浪首页 语音播报 相关新闻 返回顶部