这一期五源小酒馆,两位AI领域的新锐创始人——Dify.AI的张路宇和ChatTTS的李大勇分享了他们的创业经历和关于行业的一些心得。他们探讨了新一代AI创业者如何在开源和全球化中寻找机遇,以及他们如何应对创业过程中的挑战的,希望他们的经历也可以对你有所启发:)
【主持人】
邢曜鹏 五源副总裁
【本期嘉宾】
李大勇 ChatTTS创始人
张路宇 Dify.AI创始人
邢曜鹏:非常荣幸邀请两位AI Infra领域的新锐创始人,Dify.AI的张路宇和ChatTTS的李大勇,两位可以简单介绍一下。
张路宇:大家好,我是Dify.AI的路宇。Dify.AI是一个开源的、面向企业的全球化AI应用开发和运营平台,我们简称其为LLMOps。我们可能是全球范围比较早提出这个词的团队。
当2022年11月,OpenAI开始大规模提供GPT系列模型的API时,我们意识到一个新的变量。这一变量预示着AI应用开发和运营将迎来新的范式,同时也带来了新的技术挑战。这些挑战不仅面向传统开发者,也包括那些原本没有技术能力的人,如使用RAG、Agent、Tools等一系列技术。此外,我们看到新的应用定义过程,以及从现实世界收集数据和改进应用的过程都是新的机会,所以我们来做这件事。
我们是去年3月份成立的一家公司,在短短一年多,作为一个开源项目,我们在GitHub上已经有了51,000个的 Star,在中国应该是Top5的开源项目,我们的Dify社区的开源版本在全球已经有了100多万的安装量。另外,作为一个非常初创早期的公司,我们已成功服务超过30家财富500强企业,并且目前已经实现盈利。所以说其实在整个过去一年多,甚至是AI的这波公司中,我们是一个非常幸运的企业。
李大勇:我们是ChatTTS,主要是提供语音合成和音频生成的业务。我们发布的第一款开源社区的库就是ChatTTS,在很短的一个月内时间内就得到了3万多的Star,我们继续会提供更高保证力、更高拟人性、表现力的语音合成技术。在我们发布ChatTTS的时候,也是发现同期的TTS并没有提供很好的像人一样交互的能力,所以我们也是提供了一些更仿真、更自然的一些语气词、一些情感的表现,这是我们主要的工作方向。
邢曜鹏:大家如果关注很多AI的应用产品,其实很多时候背后都有Dify和ChatTTS的身影,今天他们在构建整个AI应用的创新引擎,来加速很多开发者在各个领域的创新,但是我知道在公司最初成立和发展的过程中,肯定也会遇到许多争议,能否分别介绍一下你们所面临的最大质疑是什么?被投资人问得最多的是什么?
张路宇:第一个问题显然还是关于新兴公司与大公司之间的竞争,尤其是面对OpenAI这样的人才密集和资金雄厚的公司,一个新兴公司的开源的中间件公司怎么不会被吃掉,这是大家普遍关注和质疑的问题。
当然今天这个时间点上我们可以说克服了这个问题,但在当时并不是。我觉得要取决两点,第一是Founder团队和我们的投资人有没有看到那些非对称和非共识的信息。在与大量企业和开发者的接触过程中,我们发现他们仍然有许多未被满足的需求,例如多模态的模型、中立性、RAG的数据管线的编排等。第二点就是说是在于你相不相信历史,在软件设计中,其实很多历史规律在重复发生,尤其是当一种技术革命和交互革命发生的时候,那么历史上曾经发生过的事情,比如桌面操作系统和移动操作系统的演变,可能会在这个时刻重新出现,关键在于这一点有没有被看到。
第二个挑战与增长有关。Dify的增长和商业模式,我们称之为PLG 3.0,或者说PLG加开源的模式。在这个模式下,我们的产品从PMF时刻到实现大规模增长和市场覆盖,形成某种技术垄断,最终实现收益,这实际上是一个二阶或三阶的过程。也就是说在最早的时刻看,它并不是线性增长的,这可能需要具有耐心和系统性思考能力的机构才能理解。另外一个挑战是当前存在的地缘政治因素,但我认为这只是一个小挑战,并不是我们停下脚步的理由。
李大勇:对于我们来说的话,可能一开始的问题是ChatTTS作为一种基础能力,是否会被其他大公司取代,比如大厂去做他们的互动时候肯定需要有TTS能力。当时有很多投资人问我们,如果遇到大公司将你们的TTS业务一块做掉,你们该怎么办?我们最初觉得是在我们在技术上会有一定的领先优势,但这种优势很快会在大厂投入大量资源后被缩小。
但现在我们会有一个比较好的答案,就是大公司会更关注一些自然交互和与文本相关的信息提供,而情感交互和更强表现力的需求往往被忽视。一些要求较高的创作者的需求,大厂可能不会第一时间关注到和解决。如果你没有真正从事音频工作,或者没有一个专业团队,之前从事配音或音效特效工作的经验,他们可能无法发现这些需求。大厂直接贸然的进入,其实是需要投入更多的时间和精力去了解用户的真实需求。因此我们花了大量精力去寻找合适的人才,并与游戏行业的从业者交流,了解他们当前最迫切的需求。我们希望在这些方面投入更多的精力,花更多时间来对接他们的需求。
邢曜鹏:刚才路宇提到的内容给我很多启发,我想跟进问一下路宇一个问题,当AI技术出现重大突破时,你提到了信息的不对称。你是如何发现和识别这些颠覆性的信号,以及这些信号如何促使你进行这次创业的?
张路宇:我一直坚信创业机会来自于非对称的信息。非对称信息在公开领域,尤其是自上而下的宏观视角中是很难被获得的,但在微观领域却无处不在。这些信息可能存在于你的心智中、在你身边的人以及你服务的对象中。我个人觉得创业第一个问题是要想清楚,你要服务哪一群人,哪个是你的目标用户,然后钻到他们中间,和他们不断的去交流,这是获取非对称信息的最佳方式。
邢曜鹏:谈到两位的商业模式,都是基于开源相关的基础模型。大家也知道,开源在硅谷过去几十年形成了非常强大的生态网络。在中国公司进行开源与美国开源公司相比,各位觉得有哪些机遇和挑战?
李大勇:现在很多模型的验证本质上是一个中心化的任务,这意味着需要收集大量数据,在某个特定的平台上进行验证和分析,而不像之前一些在传统的开源社区里在每一个小的部分去做验证。
所以说我个人理解的一些开源,例如像LLaMA,他们会将自己的基础模型开源,吸引许多独立开发者的反馈。这些开发者可能会用少量数据或来自小公司的数据进行实验,这实际上是一个很好的机会来发现市场需求。
同时,从之前的实验中我们可以观察到,模型具有一定的涌现能力。当许多任务集中在一个模型中时,这个模型会变得更强大,而不是简单的线性叠加。所以我个人认为之后在训练模型层面的开源,大家会先发布一个基础模型,让用户进行小规模的使用。随后作为拥有模型的公司,可以观察大家在哪些方面花了最多的精力,然后再去整合类似的数据,重新训练出一个更强大的模型。这样形成了一个良性的循环,也能更好地满足用户需求。
张路宇:开源是Dify在产品战略中非常重要的一个决策。开源可以帮助我们解决几个方面的问题。第一是它有助于顺利的全球化扩张,并快速增长市场份额。其次,开源让用户觉得我们是安全的。在面向许多企业时,我们无需复杂的证明过程,就能建立我们的信誉。这一点在Dify今天在日本市场以及其他几个市场的快速传播中奠定了良好的基础。大家可能知道,日本市场非常传统,信誉社会的运作相对复杂。
我们认为,在Infra领域绝大多数世界上重要的开源产品是没有国界的,它们是一个国际化的网络。我相信,如果大家查看全球前十的开发者工具或开源项目,很多情况下,你可能不知道它们是哪个国家生产的。当然,中国的团队相对有一点特殊,我们在公司架构上也做了妥善的安排。
另外关于中国和美国的开源,我认为在中国进行开源有几个好处。首先,我们的用户基数非常大。如果大家就不去看Dify,如果你去看LangChain的话,LangChain是一家美国公司,它的中国用户占比也达到了40%。这个比例非常高,这反映出中国在生成AI应用开发方面走在了全球前列,这是中国的基数优势。
第二,从我接触到的来看,中国的企业在AI研发预算和投产方面相对务实,愿意投入资金和人才。同时,中国本身也拥有一些模型及其上下游的生态系统。在应用投产方面,中国团队整体上表现得更为迅速。
我们当然有一些劣势,比如在与北美以及当地一些传统开源公司建立上下游合作的过程中,我们面临的信息摩擦和阻力可能会稍微大一些。但是我觉得随着我们自己团队的变强,这个应该不是一个非常难克服的点。
邢曜鹏:路宇讲了很多关于他在全球各个市场的实践,所以我再追问大勇一个问题:今天你的开源社区给你带来了哪些积极的商业和产品反馈?
李大勇:从商业角度来看,我们在开源之后,确实有很多企业主动与我们联系,这算是一种宣传的方式,同时也帮助我们发现了一些之前未关注到的商业机会。举个简单的例子,客服企业可能需要我们的TTS具有非常高的准确率,但在某些情况下,他们可能需要放弃一定的表现能力,这个时候我们可以针对他们的需求对模型进行额外的训练和调整,从而更好地服务这些B端企业。
张路宇:我认为开源可以加速我们成为某种全球标准,这是我们追求的最高目标。那么现实中的好处是,我们获得了大量用户反馈。我们在全球拥有600多的Contributors,每天都有二三十条来自各个国家不同企业的商务线索,比如我们在迪拜几乎没有获客成本,这在传统的to B和to C业务中都是很难以置信的。没有获客成本意味着你的毛利可以非常高,你的团队不需要大量的Sales,只需清晰地向客户介绍我们产品的价值主张即可。
邢曜鹏:路宇因为很多人也知道你是年轻的连续创业者,对你新的公司和新的旅程也很好奇,你自己在整个创业经历中有哪些重要的成长和转变?
张路宇:对,我确实参与过很多创业公司,Dify是我第二次自己主导出来创业。我觉得最重要的一点是勇敢地迈出第一步。走出去不仅意味着我开始创业,还意味着我从一开始就设定了一个高标准,即要建立一家全球化的企业。勇敢迈出第一步是最困难的。其次我认为一个重要的转变是,我必须将自身的能力下放给团队,让每个人都成为超级个体。只有一个超级个体是没用的,我们需要构建一个相对去中心化的组织。我最近在读一本书,叫《重塑组织》,书中提出了一个概念叫“青色组织”,大致是这个意思。我非常关注这样的组织在实现规模化和全球化后,是否还能够保持当前的创新力。
邢曜鹏:大勇这是第一次创业,能不能讲一下你的创业的成长体会?
李大勇:对,因为我之前是算法工程师,这是我的首次创业。在这次创业的过程当中,至少有几个经历是给我印象比较深的,第一个是创建团队,我们发现在创建团队的时候,寻找对音频有热情的人比寻找那些头衔很高的人更为重要。这些有热情的人能够发现大厂在某些方面的不足,或者意识到大厂没有给他们提供做这些东西的机会。大厂可能更加需要你的模型会更加稳定,不能有任何的错误,而在小公司创业时,我们并不会面临这种限制。
其次,我认为合作非常重要。目前在语音模型领域,还没有看到一个已经开源的、具有广泛应用的大模型。我们一方面在开发自己的模型,另一方面也在为企业进行部署。在缺乏参考案例的情况下,我们与一些图像处理公司以及之前从事自然语言处理的企业展开合作,他们会有更好的数据,会把一些已经解析好的数据去共同分享,同时我们也将我们的技术能力赋予他们。通过这样的合作,我们都能够走得更快一些。
你对AI产品有哪些看法?欢迎在评论区分享你对这一期内容的观点,我们会选取2位精选留言,送出五源咖啡一份。
五源寻找、支持、激励孤独的创业者,为其提供从精神到所有经营运作的支持。我们相信,如果别人眼中疯狂的你,开始被相信,世界将会别开生面。
BEIJING·SHANGHAI·SHENZHEN·HONGKONG
WWW.5YCAP.COM
(转自:五源资本 5Y Capital)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)