HeyGen 创始人万字访谈:没有自研大模型,AI 视频公司如何做到 3500 万年收入?|Z Circle

HeyGen 创始人万字访谈:没有自研大模型,AI 视频公司如何做到 3500 万年收入?|Z Circle
2024年07月18日 18:28 真格基金

来源:真格基金

Z Circle 是关于人的栏目。

2023 年底,HeyGen 因其制作的 Taylor Swift 说普通话的视频片段在网络上迅速走红。一年后,HeyGen 完成了 6000 万美元的 A 轮融资,公司估值已达近 5 亿美元。在这一年时间里,他们的 ARR 从 100 万增长到了超过 3500 万美元,成为了当下炙手可热的 AI 视频生成公司。

2021 年,真格基金天使轮投资 HeyGen,并随后于 Pre-A 轮持续加码。联合创始人徐卓(Joshua Xu)是 Snapchat 前 100 号员工,担任工程负责人,参与过包括广告技术、推荐系统和 AI 相机在内的一系列工作。我们与徐卓相识于真格精酿活动,他也曾参与真格的 EIR(Entrepreneur In Residence,入驻创业者)项目。

下面的文章整理自 HeyGen 创始人徐卓与硅谷知名投资人 Sarah Guo 的两次对谈,讲述了 HeyGen 的创业故事、技术路径与成功秘诀。

AI 视频生成公司 HeyGen 最近完成了 6000 万美元的 A 轮融资,公司估值已达 5 亿美元。此次融资由 Benchmark 领投,Conviction、Thrive Capital 和 Bond Capital 参与。截至目前,HeyGen 已累计筹到 7400 万美元。

在 HeyGen,用户可以快速创建被称为 Avatar 的虚拟形象,它们能用用户的声音说话,还能把说出来的话直接翻译成 175 种语言或方言。

去年 4 月,HeyGen 官方分享了他们用 178 天实现 0 到 100 万美元 ARR 的历程。在过去一年多的时间里,他们的 ARR 从 100 万增长到超过 3500 万美元,并且自 2023 年第二季度以来一直保持盈利状态。目前,HeyGen 已拥有包括麦当劳、Salesforce、多国政界人士等在内的超过 4 万名付费客户。

本文整理自 HeyGen 创始人 Joshua Xu 的两次对谈,分别发布于 Sarah Guo 的播客 No Priors 和财务服务公司 Pilot 官网。

Joshua Xu 于 2020 年创立 HeyGen,此前的六年中,他在 Snapchat 担任工程负责人,参与过包括广告技术、推荐系统和 AI 相机在内的一系列工作。

两次对话中,Joshua 聊了聊 HeyGen 的技术与模型,分享了现有模型的一些意想不到的商业应用案例,向听众复盘了 HeyGen 的产品、市场策略以及他关于 PMF 的思考,强调快速迭代和客户反馈的重要性。他们还讨论了 AI 视频的滥用和造假问题、视觉生成 AI 的未来和潜在应用场景。

01

创业源起:

HeyGen 想成为新的相机

Q:你创办了 HeyGen,它现在已经被数百万人使用过。能讲讲创办它的故事吗?

Joshua Xu:我们在大约三年半之前开了公司。这之前,我在 Snapchat 工作了大概六年半。我之前在卡内基梅隆大学读机器人技术,2014 年加入 Snapchat,最开始负责 Snapchat 广告排名和推荐,最后两年在做 Snapchat 的 AI 相机,Snapchat 用了大量 AI 技术来增强相机体验。2018 年,Snapchat 发布了婴儿滤镜和迪士尼风格滤镜,那是我第一次看到计算机能够生成现实中不存在的东西。我当时非常迷这个技术,感觉它可能会改变人们创作内容的方式。Snapchat 是一家相机公司,每个人都通过手机相机生产内容。但我们想取代相机,因为我们认为 AI 可以创造内容,可以成为新的相机。HeyGen 的目标是让每个人都能轻松讲自己的视觉故事。

Q:其实我还是经常用相机。对你来说,取代相机意味着什么?为什么我们需要这样做?

Joshua Xu:我一直在移动相机领域工作,开发了很多软件和技术,让人们更容易、更方便地用手机相机拍照。但是今天其实还有很多人不知道怎么用相机拍出好东西。如果 HeyGen 能取代相机,就意味着我们能消除讲视觉故事和生产视觉内容的阻碍,这会帮我们在整个内容生产领域迈出一大步。

Waseem Daher:我知道你们一开始做的是虚拟 Avatar,用户可以拍自己的视频,然后把它变成一个接受文本输入的 Avatar,这个 Avatar 可以用你的声音说话,做很多有意思的事。你们是怎么决定从 Avatar 开始的?

2 年前的 HeyGen Avatar

Joshua Xu:最开始,我们试着解构整个视频制作的过程。视频制作主要分为「相机」和「编辑」两部分。「相机」更多关于原始素材,它是关于人类的代言人——Avatar。编辑更多是关于 B 卷素材的,添加不同的 bgm、转场、动画等等。我们通过客户反馈了解到,编辑其实并不太费钱,因为它是一个比较标准的服务,但相机的费用很高。

想象一下,如果一个公司的 CEO 想录制一些内容,可能需要提前两周时间来安排,要找摄影团队,找摄影棚。两分钟的视频可能需要录 20 分钟,因为得花时间记住脚本。这是阻碍很多企业制作新内容的关键点。所以我们从替代这个过程的环节入手,制作 Avatar 来替代视频制作中的拍摄部分。

Sarah Guo:怎么判断 Avatar 的质量够不够好?你怎么看 HeyGen 现在生成内容的质量?我一直觉得它是质量的标杆。

Joshua Xu:质量一直是我们产品、业务和技术的核心。我有条隐形的质量线,比如阈值是 90,低于 90 的东西对客户来说基本上不可用,因为不能真正替代他们现有的生产流程。我们专注于让视频生成质量超过这个阈值。我认为现在的 Avatar 技术已经达到了这个水平,所以我们能真正帮助人们替代真实的相机,释放很多创意过程,帮助人们扩大内容生产的规模。当然,还有很多提升空间,比如生成全身的虚拟形象、把所有的特效和动画都放进视频里等等。

Sarah Guo:即将发布的新功能里,你最感兴趣的是什么?

Joshua Xu:我们的技术和产品路线图上有很多令人兴奋的东西。我特别期待全身 Avatar。以前的技术都集中在上半身,生成手势和身体动作很难。但很多学术研究已经证明这是可行的,我们只需要完成最后一公里。另一个让我特别兴奋的新功能是实时视频 Avatar,尤其是在 GPT-4o 出现之后,它大大提高了与文本和语音的实时交互性能。HeyGen 的 Avatar 可以成为这些应用的可视化层。

Sarah Guo:现在客户在全身动作上有什么需求吗?

Joshua Xu:我们觉得不同的使用场景对质量的要求是不一样的。比如,教育和学习内容更像是一个人给很多人讲课,在这种情况下,质量的要求相对低,因为静态的虚拟 Avatar 会显得很专业。但如果是高端的营销内容,比如广告创意,就需要非常动态的效果,因为这样更吸引人,投资回报率更高。我认为实现全身渲染技术会提升 Avatar 和视频的互动性和真实性,可以开拓更多营销和销售应用场景。

Waseem Daher:就像新闻节目之类的内容,通常会有主持人走来走去的镜头。这些标准镜头如果有全身渲染技术,就可以应用在各个领域。

02

视频仍是异步生成,

五年内有望实时生成

Waseem Daher:现在已经有很多人在不同场景中用 HeyGen,比如营销和销售,有些人用它来开内部研讨会或者做学习培训。你觉得未来会怎样发展?这种技术的最终形态是什么?每个人都会有一个可以代替他们开视频会议的「分身」吗?或者只是用于娱乐?你怎么看这种技术的演变?

Joshua Xu:我认为有很多可能性。我们目前正在解决的问题是内容创建的入口点,所有内容都是从相机开始,然后人们会进行大量的编辑。我们可以清楚地看到一条路,人们可以把生成的所有素材组合起来,用 AI 编辑来生成最终的视频版本。再进一步,有可能推动技术进步,我们有可能会创造更好的生成视频的实时体验,这可能会替代我们现在的很多实时对话,特别是结合了 GPT-4 和多模态实时传输技术之后。

Sarah Guo:我们现在还在 2024 年的异步视频创作阶段*。现在大家是怎么用 HeyGen 的?你最喜欢的使用场景有哪些?

*注:异步视频创作指视频录制和播放不在同一时间进行。

Joshua Xu:我把 HeyGen 的使用场景分为三类:创作、本地化和个性化。用户可以从我们的 Avatar 库中选择角色,或者创建自己的数字分身,然后选择模板或输入脚本来生成视频。这种方式适合用来做产品介绍、教程视频、销售培训等领域的内容。我们还可以把现有视频内容转换成超过 175 种不同的语言,包括方言。用户还可以用 HeyGen 大规模地个性化视频消息。现在 HeyGen 有很多非常有创意的使用场景。

我们是一个非常开放的平台,我最喜欢的使用场景之一是最近跟麦当劳的合作。他们推出了一个甜美的活动,让人可以用不同语言给家人发消息。我只想强调一点,AI 是为所有人服务的,无论是奶奶还是孙子都能用。

McDonalds 最近推出了一个 AI 驱动的营销活动 Sweet Connections,你可以给你的奶奶录制一条信息,并通过 HeyGen 将信息翻译成奶奶的母语。

Waseem Daher:这种生成大量个性化内容的能力,会怎样影响人们制作和使用视频的方式?

Joshua Xu:我认为这将会从根本上改变人们思考如何发展业务、如何沟通、如何进行营销和销售。我们生活在一个以视频为主的世界,每个企业都想做更多的视频,但是现在视频瓶颈是成本,需要花好几周甚至好几个月的时间。如果人们能生成吸引人且真实的视频内容,他们就会做更多视频,用视频来拓展业务。

我相信我们可以生成高度个性化的视频,特别是通过虚拟形象来提供非常动态和高质量的内容。我举个例子,很多 AI 生成技术不仅仅是为了节省成本和时间,更重要的是,它们可以解锁新的用户案例,让他们做到以前做不到的事,我认为这是今天很多业务的关键点。

Waseem Daher:你怎么看实时和异步视频技术的发展?现在很多技术都侧重异步应用,比如语音模型就是先生成本文再转成语音。我们什么时候能实现实时或接近实时的视频?这些技术会被用在哪些场景?

Joshua Xu:我从两个方面看这个问题。首先,实时的 Avatar 对话现在已经是可能的了,可以在 HeyGen 上直接体验。我们正在准备一次更新,让它变得更快。它可以成为你虚拟的 AI 助手,帮你接电话或者做别的事。我认为技术一直在朝这个方向发展。

两年后,我们可能会看到很多异步生成的 Avatar 能够实现实时传输。我还认为,在未来五年内我们能实时生成整个视频,那时候生成的视频不是传统的视频格式了,而是一种新格式。

比如,现在我们都逛 Instagram,我们可能会看到同一个品牌推荐的不同广告,但这些广告实际上都是事先准备好的 MP4 文件,但在未来可能不需要这些文件了。如果我喜欢牛油果,我会看到有牛油果的可口可乐广告,你可能会看到别的。这在今天是不可能的,因为制作视频成本很高,但未来我们可以根据用户的特点实时生成广告,这会成为一种新范式,未来的视频播放器可以根据用户的特性实时生成内容,以最佳方式传递给用户。

Sarah Guo:一个有趣的类比是,YouTube 可能是今天最大的学习平台之一,但人们在上面看的视频都是统一、不变的。如果有个性化的学习和教育肯定会效果更好,但目前制作个性化视频的成本太高。你说的这些感觉像是未来教育的一个很不同的机会。

Joshua Xu:是的,我们这有一个典型的案例。阳狮集团(Publicis Groupe)生成了超过 10 万个感谢视频,发送给他们全球的员工,视频被本地化成不同的语言,个性化地加入了他们的名字和加入公司的原因,感谢大家过去一年的努力。在这之前,他们只能发送一个一模一样的视频,可能是 CEO 或执行团队录的,但现在就可以大规模地个性化。

03

HeyGen 的技术路径:

两步走生成视频

Waseem Daher:你提到了一些像 GPT-4 的技术,但你们也开发了自己的模型。你们目前用的是什么技术?你们怎么看待自己用的技术栈?它是怎样演变来实现全身渲染或其他新功能的?

Joshua Xu:我们有三个模型,分别是文本、语音和视频。

在文本生成方面,我们跟 OpenAI 的 ChatGPT 合作,它是我们内部编排引擎的「大脑」。

语音引擎方面,我们跟 OpenAI 和 EventLab 合作,但整个视频技术栈都是我们自己开发的,包括 Avatar 创建、视频渲染和视觉生成。我觉得,随着时间推移,技术趋势正在向多模态、多媒体模型发展。一个全身生成视频的挑战是怎么把语音与手势动作结合在一起,这需要一起训练语音模型和视频模型,这样才能在模型底层建立连接。以前这是很难做到的,因为我们必须单方面训练 TTS 模型,然后把它输出输入到视频模型里。但通过多模态训练,这完全可能实现的。

Sarah Guo:Sora 现在还不对开发者和用户开放,但已经有世界级的文生视频模型,它们不是生成虚拟 Avatar。你们的这项技术与 Sora 有什么不同?

Joshua Xu:我们创办 HeyGen 的初衷是帮助企业解决视频制作的问题。企业在找什么?他们需要高质量、可控性和一致性。那么我们要怎么实现这些目标呢?技术路径是什么?可能有两种方法。一种是像 Sora 那样,直接从文本生成视频,一次性生成整个视频。

我们在 HeyGen 一直坚持的是第二种方法:把整个视频分解成不同的部分,大部分是 A 卷和 B 卷*,分别代表不同的元素,比如配音、音乐、过渡等。我们逐个解决这些部分的问题,然后用编排引擎把它们组装成最终的视频。

*译者注:在视频制作中,A 卷是主要内容,如主体画面,B 卷是辅助画面,用于补充和丰富视频内容。

我们觉得这种技术路径更能保证质量,同时给我们更多灵活性和能力来搭建系统。特别是在商业环境中,有些东西最好还是别用 AI 生成,比如 logo 和字体,这些都需要非常精准。其实,我们把 Sora 视为合作伙伴,也是因为我们能把它集成,让它作为一个组件生成内容,然后把这些内容输入我们的编排引擎里。

Waseem Daher:从研究的角度来看,构建模型时,有什么困难或挑战吗?

Joshua Xu:与其他模型不同,构建视频模型并把美学融入 AI 模型很难。视频生成不仅仅要解决数学问题,还要创造出用户喜欢和欣赏的东西。一个在性能指标上优化得很好的模型,不一定能生成出更好的视觉效果。这让评估变得很难,但也非常重要。我们一般很难通过传统的评估方法判断效果,只能依靠产品信号来判断哪个模型更好,比如 A/B 测试,因为只有客户能做出判断。这个过程在数学上是不可微分的,所以我们必须建立一个用来收集、分析和反馈数据的系统,把这些数据反馈到模型训练中,不断改进。

Waseem Daher:这种方法是你在 Snapchat 用过的,还是在 HeyGen 的背景下发展出来的?

Joshua Xu:我认为两者非常像,特别是在我们开发相机软件的时候。怎么知道哪个参数效果更好呢?可以提出一些客观的指标,比如亮度和分辨率。但很多时候我们发现,高分辨率并不意味着图像质量更好。比如 iPhone 的分辨率并不总是最高,但它拍出的照片是大多数人喜欢的。早期在 Snapchat 学到的教训在 HeyGen 也适用。

Sarah Guo:你们在研究视频技术等方面的新功能时,是更多参考学术界的研究,还是根据客户的问题来决定?

Joshua Xu:我觉得这是一个结合的过程。另外,我还想补充一点:要深刻理解模型的局限性,试着找到用户需求和技术能力之间的平衡。所有 AI 模型都有一定的局限性。关键是要考虑怎样设计产品才能在避开这些局限的同时放大模型的优势,来客户提供出色的产品体验。这对发现新的创作体验领域非常重要。

举个例子,像视频翻译技术,它就跟传统的配音不一样,它保留了用户的自然声音和面部表情,是一种全新的内容翻译方式。其实支撑视频渲染的是一个唇部同步模型。我们找到了一种方法,把这些技术与语音和 ChatGPT 的翻译结合在一起,打造出一种全新的视频和内容本地化体验。

Sarah Guo:很多人指出滥用他人的虚拟形象和声音进行深度伪造很可怕。你怎么看待安全性和滥用的问题?

Joshua Xu:首先,我们的平台上禁止出现任何政治相关的内容。HeyGen 的政策严格禁止创建未经授权的内容,我们非常重视平台的内容滥用问题。

我们的安全措施包括非常先进的用户验证,比如即时视频确认、动态口令和快速人工审核,所有新内容都要经过审核。信任和安全对我们的业务至关重要,我们正在与行业伙伴合作,开发工具、探索最佳实践,来对抗虚假信息和 AI 安全问题。我们把安全视为内容创建过程的一部分,在 HeyGen 的每个创建步骤都会基于安全考量。

Waseem Daher:你谈的是如何防止负面影响,但如果从积极的方面来看,比如竞选公职时,或许可以给每个选民发送一段个性化的视频消息,谈论他们关心的问题,直接发到他们的邮箱。可以想象,未来这种技术会被用在超个性化的政治竞选中,只要能避免深度伪造的负面影响就行,这项技术确实很有价值。

04

成功的秘诀是 

80/20 原则快速迭代

Waseem Daher:我想问问 Joshua,选择用 AI 以及选择公开而不是秘密开发 HeyGen,对你来说是显而易见的选择吗?

Joshua Xu:我觉得这个要追溯到早期。首先,我们是第一次创业,以前都是做学术研究的,对市场推广不太了解。我认为一开始,我们应该从公众社区中学习,同时也算是对社区的回馈,所以早期我们就分享了从 0 到 100 万的故事:AI 创业,我们如何在 7 个月内达到 100 万美元收入。我们也确实从社区中,从其他创始人和开发者那里学到了很多东西。

尤其是在 AI 爆发的今天,有很多东西可以开发,很多事情都在变化,不仅是与客户的互动方式在变,软件业务和市场都在变。因此,我们会向用户和社区分享我们的进展,这给了我们很多力量和灵感。在初期找到 PMF 很难,我们也希望能回馈社区。

Waseem Daher:Sarah,这会对你有吸引力吗?我记得你投资得挺早的。

Sarah Guo:这些是在公司找到初步的 PMF 之后的事,我确实读了 Joshua 发布的关于从 0 到 100 万的文章。对投资人来说,见创始人一次面是很好的,但花 50 分钟了解对方并不够,所以有一些关于人们行为的长期数据也非常有用。我认为这对雇主品牌也是好事。如果人们看到你的创业历程,向你学习过或被你启发过,他们更有可能想加入你们。

Waseem Daher:Joshua,你提到快速行动是关键,我觉得很明显,这个团队确实行动迅速。你们的秘诀是什么?有哪些策略?你们是如何建立一个高效、高速迭代的团队和文化的?

Joshua Xu:首先,我们每周都进行一次迭代。我认为这是自 18 个月前推出产品以来一直在做的事情。每周迭代和发布确实很有挑战性,但我们严格遵守这个发布计划。通常,我们的理念是保持团队精简,专注于最重要的事。我们只有 40 多人,真的要专注于业务中最重要的部分。另外,就像你提到的,我们建立了一种鼓励快速行动的文化,团队中的每个人都应该以解决问题为目标。

我们在 HeyGen 强调的是迭代式地做产品。我们有一个 80/20 原则。通常,当我们面对问题时,我们会问自己,有没有一个解决方案可以快速解决 80% 的问题?答案通常是肯定的,那么我们会先发布这个 80% 的解决方案,可能只需要一两天时间。然后我们再回头看看,剩下的 20% 是否仍然是优先事项?如果是,我们会再次应用 80% 原则,这样就能再解决 16% 的问题。

最开始我们担心这样能不能交出最高质量的结果。但我发现,迭代其实是交出高质量成果的最佳方式。因为如果连续三到四次应用这个原则,最终会达到 99% 的解决效果。我们在春季计划、功能测试等每一件事上都用了这个原则,它同样也适用于招聘、市场策略和基础研究。

最后一点也很重要,那就是专注于最重要的事。初创公司通常资源有限,团队规模小,没办法处理所有事情,所以要找出对客户最重要的三件事,全力以赴地推动它们。

Sarah Guo:能介绍一下现在 HeyGen 的规模吗?

Joshua Xu:我们目前有 40 多人,但我们已经服务了超过 4 万名付费用户。有意思的是,这些客户并不是那些早期接触 AI 的高科技公司,而是包括从欧洲制造商、小企业、全球非营利组织到财富 500 强公司在内的传统行业公司,而我们正在解决的正是他们的问题。

Waseem Daher:相当于每个员工服务 1000 个客户,这个指标很厉害。你们现在正在招聘吗?

Joshua Xu:当然,我们的各个团队都在招聘,主要招产品设计、工程师、AI 研究员和市场推广等。

Waseem Daher:你们是怎么知道你们达到了 PMF 的?是有某个瞬间让你们意识到,还是一个渐进的过程?

Joshua Xu:一旦你找到了 PMF,客户会告诉你,你会感受到强烈的市场需求。最开始我们没有先开发产品,而是先验证了 AI 视频生成的概念。我们在 Fiverr 上发布了一些视频,没告诉观众这些是 AI 生成的,然后发现这确实可行,我们才开始开发产品。我们也试过很多其他不成功的东西。PMF 更像是一门艺术,而不是科学。

我们开发了一个框架,试图证明某事不可行,而不是证明它可行。从这个角度思考,很多行动会变得不同,每次测试都是为了证明某事不可行,从而优化测试过程。

05

别纠结套壳,

关键是怎么粘住客户

Waseem Daher:你们怎么看竞争?我知道 HeyGen 主要瞄准一些营销领域。还有其他公司可能也在瞄准类似或相关的市场,包括一些顶级投资人的公司。你们会觉得市场足够大,大家都能分一杯羹吗?还是怎么认为的?

Joshua Xu:首先,竞争是令人兴奋的。我觉得这对整个行业都有好处,大家可以互相学习,互相推动,共同进步。从我的角度来看,竞争的关键是要考虑最终谁受益。其实,最后受益的不是我们自己,也不是投资人,而是用户。所以我们专注于怎样让客户满意,因为他们才是决定竞争胜负的关键。

AI 现在显然发展迅速。我觉得快速行动是初创公司的唯一优势。你会看到,行业里的大公司都想努力赶上,在尝试做 AI 应用和大型模型。我们必须在这些大公司搞清楚怎么创新之前,领先一步。

对于初创公司来说,我们也在思考长期价值和商业模式的护城河是什么。比如说,是网络效应吗?是市场策略带来的吗?还是通过不断改进 AI 模型实现的?不同的业务可能有不同的答案。对于我们来说,我们需要建立一个平台,能够涵盖很多使用场景,吸引大量用户,并为他们建立一个品牌中心。

Waseem Daher:我觉得很多人可能会认为,差异化在于底层技术更好,比如有些模型能生成更好的结果。但你说得对,关键是如何让它更有黏性,如何真正嵌入到客户的工作流程中,即使其他模型变得更好,客户仍然愿意使用我们提供的解决方案。Sarah,从投资人的角度,你怎么看差异化问题?比如有些人说「某个东西只是 ChatGPT 套壳」。

Sarah Guo我是个非常关注早期阶段的投资人。大多数投资人可能会告诉你,他们投资看重团队、好的市场或者特定的投资理念,到后期还会有人看重势头。但对我来说,最重要的是团队,我认为团队是一切。市场和技术可以变化,但优秀的创始人可以改变市场的形态。

Joshua 就是那种罕见的既懂研究,又能在机器学习领域创新,同时还有产品导向、用户导向、高速执行和长期战略思维的创始人。这些品质很难同时在一个创始团队中找到。

我其实关注这个领域已经有一段时间了,所以我对竞争对手很熟悉。从公司核心特质的角度来说,我认为 HeyGen 是这个领域中是唯一一个产品体验真正达到了消费者质量的公司。如果你只有 60 秒时间来吸引某人的注意力,产品体验必须很好。与那些自上而下销售的产品不同,它们虽然有很好的商业模式,但体验质量不一定高。不同的市场有不同的进入策略,但我认为底层用户喜爱度是一个难以复制的优势。

去年夏天投资时,我们认为 HeyGen 处于一个早期的拐点。相比于其他团队,我们相信 HeyGen 的团队、战略愿景和势头。

Waseem Daher:Sarah,你怎么看 AI 公司的最小可行产品(MVP)和早期市场策略?我认为这也是 AI 公司和传统 SaaS 公司之间的一个有意思的区别。

Sarah Guo早期阶段的 AI 公司可能需要先达到一定的质量标准,客户才会用。不同客户群或不同用户对质量的要求也不同。优秀的产品团队可以调整产品的其他部分,而不仅仅是模型本身,让它们在某种程度上符合用户的期望。

这个产品是否足够好?能否优雅地处理失败?随着产品的改进,能否吸引更多用户?很多公司在早期阶段会遇到「先有鸡还是先有蛋」的问题。他们知道怎么改进产品,但需要先拿到数据。要有一定的创造力,才能高效地得到样本数据。

人们常说某些东西只是 ChatGPT 套壳。我认为,开软件公司仍然有很多难点,核心技术绝不是唯一的难点,它只是其中之一。

诚实地面对不同用户的质量要求非常重要。比如,HeyGen 的用户现在会用 Avatar 进行财报发布和视频翻译,我原以为这在 2024 年不会发生。两三年前我开始关注这些技术时的反应是,这太奇怪了,我不相信人们会用这个。但当人们愿意为此付费时我很困惑,我其实不会希望一个 AI 版本的 Sarah 来到这个世界上。但我意识到,如果它能代替昂贵的视频制作,那么对个人创作者、中小企业的内部沟通和外部营销来说,使用这种技术的敏感度就会降低。

因此,有时候我们得从某个地方开始,然后观察技术的进步。即使今天它看起来很糟糕,但明天可能就会更好。如果你的团队能对技术进步做出明智的决策,并推动它超出某些客户的期望,就是一个巨大的优势。

06

要不要融资,

取决于公司目标而不是收入

Waseem Daher:HeyGen 从一开始就有收入,我之前读到的是 2022 年 3 月的 ARR 大约是 100 万美元,到 2022 年 10 月大约增加了十倍,到 2023 年大约是 1800 万到 2000 万美元。有收入对业务战略有什么影响?显然,这并没有阻止你们融资,但 Joshua,你们有没有考虑过自筹资金?你们是怎么决定让 HeyGen 成为一家被风险投资支持的公司?

Sarah Guo:我可以插一句,Joshua 在我们见面时并没有筹钱,所以我很感谢他让我参与进来,因为我觉得他当时更专注于业务。

Waseem Daher:对,这正是我的意思。你们做了一个能产生收入的东西,能保持盈利,有机增长,但你选择了不同的路。我认为这是正确的决定。但我很好奇是什么促使你们做出这个决定,你们是怎么考虑的?

Joshua Xu:我们并没有从是否自筹资金或风险投资的角度考虑。我认为我们主要考虑的是业务的下一个里程碑是什么,我们要做什么,然后要弄清楚需要做点什么才能实现它。

不同阶段的公司情况非常不同。在改进 PMF 时,我们专注于客户,了解客户最重要的需求,并保持精简。后来,当我们达到初步的 PMF 时,比如 ARR 达到了几百万美元,我们在努力弄清楚整个市场策略,思考如何扩大规模,我还记得我们见到 Sarah 时,规模还不到现在的 10%。投资人能提供不同的资源,资金是一方面,帮助和建议也很重要,因此我们选择了 Sarah,因为她在市场策略方面能给我们很多支持。

后期我们需要深入研究,提升模型和用户体验,这时候可能就需要更多资源,更多 GPU 算力。我们没有把收入看作主要的里程碑,我们一直希望的是实现关于视觉故事的目标。我认为我们现在只完成了 5%的旅程,还有很多视频创作的创新可以用新的 AI 技术实现,我们需要投入更多资源来投资这些新技术。所以,归根结底,这取决于我们想要实现的里程碑和实现它需要什么。

Waseem Daher:Sarah,你怎么看那些已经有收入的公司?他们应该自筹资金还是应该融资?你觉得有哪些选项?

Sarah Guo首先我认为 HeyGen 会成为一家很有潜力、被 VC 青睐的公司。但认真地说,我父母的公司是一个自筹资金的网络基础设施公司,最后成功上市了。我提到这个是因为他们没有筹到风投资金,我们试过,但失败了。那时候公司里全是工程师,没有市场人员,也没有讲故事的能力。他们最后在收入达到 3000 万并盈利时筹到了成长型股权资金。这与早期创业非常不同。

我认为有很多不同的方法来建公司,但这确实影响了我作为投资人的看法。我认为团队要做所有的工作,但拥有一些高质量的人脉可以对决策产生重大影响。Joshua 之前提到,考虑你想实现什么,然后决定是否需要资金。我也是一个社区导向的人,我认为建立公司需要很多优秀的人,很难独自完成。

我认为在考虑是否自筹资金时,一个基本问题是,如果你的决策框架是我们有钱或没有钱,你的决策会局限于不需要投资的事。而从产品角度来看,有些事情可能非常贵,比如开发更多功能以及服务客户。所以我认为钱不是最合适的决策范围。作为早期投资人,我与普通的股东处在同一立场,我们都希望不被进一步稀释。保持独立是很重要的。因此,收入和盈利是好的,但最重要的是公司的净影响和绝对影响。你应该根据你想实现的目标来做决策,而不是根据是否筹集资金。

*对谈及参考文章:

https://www.youtube.com/watch?v=0rHaV3mkUG4

https://pilot.com/webinar/founders-and-funders-building-with-ai?

https://www.bloomberg.com/news/articles/2024-06-20/ai-video-startup-heygen-valued-at-500-million-in-funding-round

https://www.heygen.com/article/announcing-our-series-a

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片