“赛博菩萨”袁进辉，只想做好“Token工厂”｜甲子光年|推理_新浪财经

做产品和发论文是不同的。

作者｜苏霍伊

编辑｜赵健

最近，袁进辉在媒体中出现得很频繁。

他也一遍遍地讲述着自己的创业故事。七年前他成立了一流科技（OneFlow），六年后他是硅基流动（SiliconCloud）的创始人&CEO。作为“拿着锤子找钉子”的“技术派”，这其中如正弦函数般的起转沉浮，都写在袁进辉的缕缕白发中。

但在2023年5月至今年年初，他“销声匿迹”了一段时间。

“那段时间没有说话，因为事情太多了，没有时间停下来歇口气。OneFlow刚被并购，后面光年之外又起变化，何去何从？”袁进辉对「甲子光年」解释道，“决定创业后又得搞融资，直到年初那时才搞定。”

硅基流动依旧扎根AI Infra（AI基础设施），他将公司定位为“token工厂”，希望通过自研推理引擎，让开发者实现“token自由”，让模型像水电一样能按需使用。

“方向没上有动摇过。”袁进辉剖析这可能与他的偏好有关，“我想做的，是一种能对所有场景都产生巨大影响力的产品，而我的专长是AI Infra技术，这些都决定了我的选择。”

AI Infra之所以重要，在于它是整个AI生态系统的基石。

它连接算力和应用的AI中间层基础设施，涵盖了数据准备、模型训练、模型部署和应用整合等环节。而在其众多组成部分中，AI推理（AI Inference）的比重尤为突出。

现在，AI领域的主战场正悄然从训练向推理转移。在模型规模不断扩大的同时提升推理效率和性能已是行业的关注点，成为推动AI应用落地的核心问题。

“而且在AI推理市场，我还有未尽的使命。”袁进辉说。

一年前，「甲子光年」曾问他：“一年后，如果你可以问自己一个问题，你会问什么？”袁进辉表示会问“我成长了吗”。

如今在2024年的末尾，他已给出答案。

1.AI推理为什么能成为一门生意？

甲子光年：去年8月创立硅基流动时，你是如何说服投资人再次支持你的？

袁进辉：主要有两个因素——“人”和“事”。

首先是“人”，之前OneFlow取得了一些技术突破和亮点，大家看到我们团队是久经考验、基础扎实的，而且是AI方向上稀缺的人才。

其次是“事”，即判断AI Infra是否有前景，从推理切入是否合理等。我个人认为“事”比“人”更重要，因为“事”本身要有足够的吸引力和市场空间，人才就会汇聚。

但从外界来看，“人”的权重或许更大。投资人可能更重视团队可信度和能力等，因为AI推理的重要性已有一定共识，但能做好团队却不多。

甲子光年：你认为的更重要的“事”就是AI推理。既然模型厂商都能提供推理服务，AI推理还能成为一门单独的生意吗？

袁进辉：基本逻辑是AI推理的市场空间广阔、标准化程度高以及有一定的专业性。

首先AI无处不在，已经成为最基础驱动力之一。一个日活跃用户数达1000万的应用，每位用户每天的交互可能生成几十万至上百万个token，累计起来每天总token数量可超过万亿。考虑到所需的GPU数量和云端GPU租赁成本，若每张GPU卡每小时租金为2美元，总成本将是一个骇人的数字。目前规模尚未达到此程度，但趋势表明使用量将持续水涨船高。

同时AI推理的标准化程度高。无论应用场景如何，它们对底层技术的使用接口都是统一的，这就像大家对英伟达GPU的普遍需求。语言模型的API普遍遵循OpenAI的标准规范，这让大模型API可以在各种场景中统一调用，这是少见的标准化产品机会。如果需求量大又“千变万化”，就不得跟着不打造“五花八门”的东西。

第三点是，让广大开发者能低成本地用好推理这件事，仍存在较高门槛。这涉及到许多底层技术，如GPU、分布式计算和云计算等。如果开发严肃的产品，就要确保底层模型的稳定运行，并在需求波动时弹性扩展计算能力。然而大多数开发者和企业至今仍不擅长解决这些问题。所以从社会分工的理论来看，标准化的AI推理部署产品，能更好地满足不同场景和应用的共性需求。

甲子光年：全球AI推理市场的规模有多大，你能给出一个具体的数字吗？

袁进辉：我可以提供一些推算的方法。

第一从生成的token数量来评估。目前OpenAI每天生成数万亿token，国内一些大厂的日token生成量也超过万亿。依据中国信通院院长余晓晖发布的《全球数字经济白皮书（2024年）》，截至2024年一季度，全球AI企业已达近3万家。随着应用数量和使用深度的增加，每天生成的token数量可能达到百万亿甚至千万亿。

按每100万个token最低标准1元计算，每天生成一万亿token的成本约为100万元，可以据此推算出支持每天百万亿token生成所需的成本。

第二从算力运行推理任务的角度看。AI计算中的GPU分为训练和推理两部分。训练的算力需求相对固定，而推理的算力需求不断增加。目前推理所需的GPU数量已超过训练，且这种趋势将继续扩大。如果现阶段全球使用的GPU数量为数百万张，未来可能增加到千万张，而其中大部分将用于推理。

我们可以根据价值链条中的成本和利润，来推算推理算力的市场规模。一台H100服务器售价在27～28万美元左右，其中约20万美元是芯片成本，包含八张H100卡。云服务商在租赁这些服务器时，一般毛利在50%以上，甚至能达到70～80%。每张H100的月租金在1000～2000美元左右，八张卡的服务器每月租金约1万多美元。据此可以推出AI推理市场规模。

2.从算力到“模力”

甲子光年：有AI Infra公司将自己定位为“算力运营商”，硅基流动的定位是什么？

袁进辉：硅基流动的核心产品是SiliconCloud——一站式大模型API云服务平台，包括阿里旗下的通义大模型Qwen2、智谱旗下的GLM-4、幻方量化旗下的DeepSeek V2系列开源模型等。

作为Infra团队，我们希望通过自研推理引擎，让开发者实现“token自由”。所以我们更接近于“模型能力供应商”，在算力基础上将原始的算力加工成更接近用户需求的产品。打个比方，算力就像是白菜、土豆等原材料，既可以直接卖给客户，也可以将这些原材料加工成宫保鸡丁之类的成品菜，再“端”给客户。

我们提供的是成品模型，而不是原始的算力资源。

有时我们称自己为“token工厂”，也有类似“模力社区”的概念。“模力”就是模型能力，我觉得“模力”这个词很贴切，它是算力的进一步加工和提升，可以让模型像水电一样能被按需使用。实际上很多企业需要就是模型能力，直接将其输送到他们身边不是更好？

甲子光年：在海外有很多做AI推理的公司，硅基流动与它们所做有何相同，又有何不同？

袁进辉：事实上各家对市场的理解基本一致，瞄准的需求也大致相同。每家的核心产品追求的关键特征或指标相似，像如何加速各种语言模型的推理速度、云服务等。

海外市场在AI Infra领域起步较早，如Google Cloud AI、英伟达、Databricks等。如今，大模型推理需求更加显著，许多AI Infra公司押注这一领域。甚至之前未关注AI Infra的公司，在发现推理成为主要的变现渠道后，也纷纷向此转变。

以Hugging Face为例，它最初是以构建一个围绕机器学习和自然语言处理的社区为主，后面逐渐发展成分享机器学习模型、数据集和相关技术的平台，先有了流量，再通过流量变现收益。除将流量引导至云计算厂商外，更好的方式是提供附加价值更高的服务，比如为开发者和用户提供部署模型的服务。

现在一个基本共识是，AI Infra的“卖铲子”方式最能盈利，其中大模型推理是关键。所以Hugging Face推出了TGI（Text Generation Inference），Together AI推出了模型托管和Playground API等项目。

至于不同点，包含各异的产品类型和定价体系。一种模式类似于自助餐，客户可以按需选择现成的服务，定价较低，用来吸引客流；另一种模式类似于餐馆点菜，客户的服务专属，如专用实例等。各家都在提供核心技术，如自研引擎和云服务、增强上下文处理能力和函数调用支持等，但大家也在努力寻找差异化的竞争优势。

另一个主要的区别在于市场的选择。海外同行主要关注美国市场，而我们的起点是国内市场，同时也参与了全球开源项目，例如文生图工具在全球开源社区有一定影响力，逐渐吸引了海外需求，尤其是认可我们在文生图服务上的用户。

还有中国出海的企业，它们与中文社区联系紧密，我们也覆盖了一部分。

甲子光年：是什么造成了各家在AI推理共识下的不同？

袁进辉：一些方法如paged attention、投机执行或continuous batching等已在论文中有所描述，基于这些概念进行实验，找到不同的实现方式、配置和策略，细微之处有很多差异。

把技术当作产品来做和只为发表论文是不同的。

研究通常侧重于复杂而炫目的big idea，而产品开发则更关注整体性能的提升。即使某个改进的收益不到10%，我们也会去实现，通过这些小幅度改进的积累，总体上可以实现显著提升，这些差异最终会导致不同的结果。

甲子光年：现在全球有很多企业在做AI推理，硅基流动如何“杀出重围”？

袁进辉：最初没有产品时，我们只能向用户和投资人抽象地解释成果以及为何有信心成功。但现在我们不需要论证太多，可以直接用产品证明我们做得更好，通过客户反馈和市场认可就能证明优势了。像接力赛，技术、产品、市场占有率、口碑和品牌的每一棒都要跑得快。

有些创业是做人所不及，一骑绝尘，这当然是最理想的状态。但借用李彦宏在内部的讲话，我们每个公司都处在完全竞争的市场环境中，你不管做什么方向都有很多竞争对手。

如果你能永远保证领先对手12~18个月，那是天下无敌的。不要觉得12~18个月是很短的时间，哪怕你能保证永远领先竞争对手6个月，那就赢了，你的市场份额可能是70%，而对手可能仅为20%甚至10%的份额。这种持续的小幅领先就能带来最后的胜出。

这里的竞争是综合性的，不同阶段侧重点不同。有时是侧重技术，有时是侧重产品设计，每个选择都会影响行动速度和方向。后期还包括生态建设、上下游协同，以及产品深化和用户粘性增强。竞争力需要逐步积累，但在初期阶段应聚焦一个关键点。

3.消费级显卡做推理，只有我们在做

甲子光年：你刚提到硅基流动的“稀缺性”，能否具体讲讲？

袁进辉：我们的团队在AI infra积累深厚。过去6、7年中，我们一直在从事像深度学习框架等有挑战性的项目，在技术积累和团队建设方面，我们领跑较多。

我们和Fireworks的背景接近，他们原来在Meta负责框架开发，这类工作对团队的素质和技能要求极高，涉及底层算子、编译器、分布式系统以及算法与系统的协同设计等方面，而要组建一个方方面面都擅长的“多边形”团队是相当困难的。并不是说我们有绝对优势，但在这种类型的工作上还是得心应手的。

以文生图为例，从2022年下半年开始，这类生成模型逐渐火了起来。而硅基流动的速度是最快的——用英伟达 GPU跑相同的模型，无论是Stable Diffusion还是近期热门的Flux，我们都实现了最优速度，并且还支持视频生成。

对于语言模型，提升运行速度也是重点。目前有几条技术路线，包括加州大学伯克利分校的vLLM、英伟达的TensorRT-LLM、Hugging Face的TGI、UCLA华人专家开发的SGLang ，以及国内上海浦江实验室的大语言模型的部署（LLM Deploy）等开源方案。闭源解决方案则包括Together AI和Fireworks等，选择非常多样化。

我们的优势体现在引擎的运行速度和基于引擎构建的云服务用户体验上，DeepSeek项目就是一个经典的例子，全球范围内可能没有其他团队做的比我们更快了。

用英伟达的H100运行405B规模的模型，大多数团队使用开源软件可达到30~40 token/秒，通过优化后可提升至50~60 token/秒，而我们可以实现70~80 token/秒，甚至90 token/秒的处理速度。

甲子光年：有哪些是别人没有做或者不愿意做，而硅基流动在做的事情？

袁进辉：在当前的推理技术应用中，我们有多样化的硬件选择，从英伟达 H100到专为中国市场设计的H20、AMD和昇腾，以及英伟达消费级GPU等。它们在计算和传输能力上的差异，带来了性价比的不同。

比如消费级GPU的性价比高，但它们之间通信带宽远低于H100，不具备像HBM或NVLink等技术。许多大厂商倾向于仅优化H100等高性能GPU，因为在这些设备上做性能优化相对简单。

但对于带宽非常低的服务器或芯片，优化更具挑战性。我们发现，除了硅基流动几乎没人愿意投入资源来解决这些低端硬件的优化问题。把这个技术问题解决掉，用户就有更多的选择了。

业内对此问题并非没有意识，但由于难度大，一直未解决，原因之一可能是英伟达不鼓励或不支持在数据中心中使用消费级GPU，但事实上国内外仍有不少企业在使用这些显卡。

英伟达对此态度明确，出现问题，他们不会提供支持。但如果能自行解决，使用是没有问题。在美国H100供应充足，以H100为主，在国内仍有很多企业在使用消费级GPU。

甲子光年：关于提升消费卡的使用效率，这是你们内部孵化的一个项目？

袁进辉：这部分我们已经做了很久，从最初进行文生图开发时就开始支持消费级显卡。

许多社区成员无法负担H100等高价显卡，只能使用个人电脑的消费卡。所以硅基流动针对这种场景做了优化，结果发现特别受欢迎，很多人都在用，这是我们当时在文生图领域获得的反馈。

后来发现语言模型也有类似需求。比如70B的模型可以用八张英伟达的4090显卡运行，速度快且成本比H100或A100低几倍。

业内说token的价格已经降下来了，但那只是引流价格，企业实际使用时是另一套定价体系。就像自助餐和饭馆点菜的区别，自助餐便宜，但在饭馆单独点菜的价格仍然高。

甲子光年：还有其他孵化项目可以披露吗？

袁进辉：刚才讨论的主要是性能优化、速度和成本，但还有一个重要维度是工具的上手门槛和易用性。目前我们正在进行一个小范围测试项目，受到了设计师用户的喜爱。

在文生图领域，设计师群体有很多创意，他们希望把创意变成现实，如创建类似妙鸭的应用、换脸、生成特定风格的设计图等，这些都属于文生图的工作流。设计这些工作流时，需要用一个流行的软件叫ComfyUI，但ComfyUI不是云端运行的软件，需要在本地服务器或电脑上安装并支持GPU，这对很多设计师来说是一大难点，因为配置GPU和环境安装非常麻烦。

我们找到了一种解决方案，将ComfyUI移至云端，这样设计师无需本地复杂的环境配置和GPU支持，只需专注于设计和查看效果，计算工作由云端完成。这是我们孵化的一个项目，目前的用户尤其是设计师群体的反馈良好。

甲子光年：硅基流动会进入AI应用领域，还是继续深耕推理市场？

袁进辉：我们不会做具体的AI应用，只专注于AI Infra和相关工具。

我们的目标不是进入特定应用场景，而是解决这些场景中的共性问题，比如推理是所有应用都会用到，还有文生图的工作流设计工具在不同场景中也具有广泛适用性。所以我们希望构建的是工具箱和工具链，并将其转变为云端产品，让大家更容易上手。

虽然不做应用，但我有一种强烈的感觉，现在是做应用产品的黄金时间，好像一切条件都就绪了，AI能力作为一种基础设施在大厂和创业企业甚至开发者之间已经拉平，接下来要比拼产品和执行能力了。

4.“赛博菩萨”是一种获客策略

甲子光年：硅基流动的算力来源是公有云还是私有云？

袁进辉：我们研发使用的一些显卡是过去采购的自有资产，但用于云服务的显卡都是租赁的。我认为当下没必要提前投入大量资金去建立机群或机房，因为有许多算力供应商进行过这些投资，来源多样，包括公有云和政府投资的算力中心。

很多中小企业用公有云就足够了，像Serverless（无服务器架构，开发者无需管理服务器的基础设施）之类的服务。但一些大客户已经拥有自己的算力资源，并对数据隐私和安全有严格要求，因此需要我们在他们的环境中部署，更接近私有云。

甲子光年：国内有哪些硬件相关的工作，与硅基流动的竞争力是息息相关的？

袁进辉：目前国内硬件领域的主要工作集中在替代英伟达产品的市场需求上。由于英伟达限制销售，中国市场上对算力的需求推动了国产芯片的发展。这些国产芯片大多采用成熟的架构，如GPU或TPU。

相比之下，美国一些公司在芯片架构上进行更激进的尝试，例如Cerebras Systems等公司，他通过芯片架构的变化使大模型推理速度更快。目前国内尚未出现类似的芯片，我们基于现有的国产芯片进行优化，比如昇腾系列，以及与AMD架构相近的海光芯片。

甲子光年：有人说AGI的发展会受到硬件性能的限制，对此你怎么看？

袁进辉：这可能指在AI的训练阶段。

AGI的发展水平基本由训练阶段决定（当然GPT o1也展示了inference scaling的潜力），具体取决于可用数据的数量、算力的大小以及模型的规模，这些因素直接影响模型的最终效果和智能水平。

推理阶段是在确定了模型的效果和智能水平之后，进一步优化其运行效率和性能。所以影响AGI实现速度的关键在于训练阶段的算力。目前训练需要大量GPU卡，彼此高速互联以形成整体，往往需要达到万卡甚至十万卡规模的集群，才能满足训练的需求。

甲子光年：硅基流动推出了多款主流服务器的永久免费服务，我们觉得你就像“赛博菩萨”。为什么选择免费提供服务？

袁进辉：调侃归调侃，多款主流模型的永久免费服务实际上是一种策略。

免费提供的是较小的模型，基本上是10B以下，算力消耗不大。这种免费服务主要面向开发者，且有访问流量的限制，比如每分钟请求次数和生成token的数量有限，每个注册用户每天可以生成的token数量也有限，超过这个限制则需要用付费服务。这种设计并非我们独有，许多大型云厂商也采用类似策略，目的是引流和培养开发者的使用习惯。

由于小模型的算力需求低，成本可控，我们以较低成本运行它们，当成一种营销策略，这也是一种有效的市场投入。但对于企业用户，如果需要更大的模型、高并发需求，或者专属服务器资源，这些服务都是收费的。

不过我们确实通过这种方式降低了个人开发者的上手门槛，减少了他们的成本顾虑，而对于更高需求的客户则提供了收费服务。

5.出海“发掘”还是内部“扎根”？

甲子光年：你们目前主要的市场是在国内还是在海外？

袁进辉：AI大模型的采纳和使用在不同地域、不同行业中节奏各异。

前沿应用领域可以称为泛科技，包括基于AI的创业公司、科技型企业、泛互娱类型的公司、电商公司、营销公司等。这些公司对AI技术的采纳非常超前，对产品的真实需求把握得更准确，对产品的要求也更高，所以我们首先服务这一波市场。而一些传统行业则会等技术更加成熟之后再应用。

在ToB领域，有两个概念常被提及：PLG（Product-Led Growth，产品驱动增长）和SLG（Sales-Led Growth，销售驱动增长）。

PLG面向的是市场化程度更高的小B客户——中小企业、开发者、科技型企业，而SLG通常针对大B客户——大品牌、大厂商或者是大的购买方。目前在大模型和MaaS产品的使用上，PLG客户对新技术的采用节奏更快，这些企业决策速度快，可以帮助我们打磨产品，使其更加成熟，从而在后续更好地服务大企业客户。所以我们的重点是先服务PLG覆盖的市场化客户，无论在国内外。

从地域上看，PLG客户类型，海外市场机会更大。许多AI创业公司首先考虑出海，因此我们也优先服务这些市场化客户。

大B市场是我们第二阶段的目标，在业务发展到一定程度后，会集中于具备强大付费能力的大企业客户，如金融、能源等行业的大型企业，这些客户付费能力强，总的市场空间更大。

硅谷很多创业公司通常从PLG模式开始，比如先服务创业公司，达到一定收入后再转向服务传统的大企业客户，因为一家大企业每年可能带来上百万甚至几百万美金的收入。所以发展的节奏是：先服务小企业，再逐步转向SLG模式，服务大客户。

甲子光年：关于出海的问题，你觉得中国企业，尤其是AI企业，应该如何出海？你有什么建议吗？

袁进辉：就我更熟悉的企业服务和云服务来说，无论是C端还是B端，海外市场的付费意愿和能力通常都更强。不论是做to C应用还是to B企业服务，一般建议先进入这些“更肥沃”的市场。

出海过程中，国内与海外市场存在一些重要差异。以企业服务为例，国内销售通常通过集成商进行，要求提供完整的端到端解决方案，集成商再将产品交付给最终客户，并掌握收益分配的控制权。如果只是链条中的一个组件或能力供应商，往往难以获得较好的市场机会。

而在海外，特别是美国，企业服务领域有完善的生态体系，企业通常在云上协作，形成多层次的分工体系。只要在某个环节中表现出色，这个生态体系就能帮助企业获得市场份额和合理的价值分配。如果你开发一个AI向量数据库引擎，只要在这个细分领域中做到优秀，就可以通过生态合作取得市场认可，而不需要提供整个端到端的解决方案。

所以做差异化优势的标准化产品，在海外市场可能更有优势。

甲子光年：AI行业出海的话，人需要跟着业务一起出去吗？

袁进辉：一般来说，如果你只做海外市场，最好人还是出去。这样你可以更深入了解客户需求和市场情况，在当地会更有优势。

但对于偏底层产品，全球需求几乎一致，客户只关心速度和价格，人不一定需要在海外也能抓住需求。服务中小企业或通过PLG方式开拓市场，也不一定需要出国。事实上，许多中小企业和to C应用团队就在国内，但完全按照海外市场规则运作，比如在Product Hunt上打榜，或在Reddit、推特上做营销。具备足够英语能力的话，人在国内通过线上拓客也是可行的。

如果要服务大企业（SLG客户），无论在哪个市场，都需要线下拜访，深入了解客户需求。如果做美国市场，必须有本地的销售团队，才能确保业务顺利开展。

6.超级应用是技术真正的普及

甲子光年：近期很火的代码类应用Cursor，看你也有关注，并在社交媒体中用“伟大”来形容它，为什么会用“伟大”一词？

袁进辉：大家都在关注大模型能带来哪些“杀手级应用”。投资者对大模型的期望很高，想知道它能解决哪些有价值的问题。

目前明确且有共识的第一个方向是编程，利用大模型提高编程效率，甚至实现自动生成代码。

像Cursor这类编程工具，不仅是编程助手（如Copilot），更像编程中的“自动驾驶”。它们能理解和索引整个项目，不只是理解局部代码或单个文件。即使是没有编程能力的人，通过自然语言描述需求，经过几次交互，也能实现一些小的应用程序。

这打开了一个全新的可能性：“人人都能成为开发者、创造者”。这个概念之前也被提出过，但仅停留在理论上。许多人由于不懂编程，无法将自己的创意亲自实现。他们需要将想法通过产品经理转达给开发者，而在这个过程中，可能会失去原始创意的完整性。

有需求和创意的人远比产品经理多得多。我们能看到的趋势是，即便没有编程基础的人，只要有需求和创意，借助这些工具也能做出一个demo或者原型。

甲子光年：那Cursor是你心目中的“超级应用”吗？

袁进辉：是的。我们首先需要明确什么是超级应用的定义。

一般来说，超级应用是指那些价值非常大或者用户量非常多的应用，比如Facebook、Tiktok、微信等。不过，当前这个编程工具的用户群体还没那么庞大，全球大约有几千万开发者使用。如果它真的能让每个人都成为开发者，那可能用户会达到几亿人。

从价值来看，我认为这个工具的潜力非常大，想象空间也很大。它是在生产环节中的一个超级应用，而在其它领域，似乎还没有看到具有相同巨大潜力的应用。

甲子光年：你也一直在关注OpenAI的o1模型，您自己有去体验过吗？

袁进辉：有的，这个新东西出来肯定会去试一下。我体验了preview版本，确实可以用相对简单的prompt解决一些以前难以处理的问题。通过多次推理，它能够解决复杂度更高或需要更多逻辑推理的问题，尤其是在数学、编程、物理等方面，比以前进步很多。

7.只做AI Infra，未曾动摇过

甲子光年：你有没有感到一种变化，从2023年ChatGPT发布后的大家都强烈震撼感，到2024年Sora出来热度的阈值有所下降，再到各种号称超越GPT-4o的模型推出，大家对AI的新鲜感似乎逐渐衰减。那你在各类大模型产品的“争奇斗艳”中，你觉得自己越来越平静了，还是反而更加兴奋了？

袁进辉：对我而言，这些情况都存在。

技术取得突破时确实令人兴奋。比如2022年11月ChatGPT发布时，绝对是最激动人心的。而后虽然也有很多进展，比如Sora等新模型，还有国内大模型的发展，但全球技术投入和发布频率实在是太高了，节奏特别快，也开始出现“审美疲劳”。

过去大家对技术进展感到振奋，但随着时间推移，更多人开始反思这些技术的实际价值——投入如此之多，现在哪些领域产生了巨大的价值？此前的投资带来了怎样的回报？这种反思是正常的。随着技术边际效益逐渐减小，兴奋度也有所下降，但大家对实际应用的期待在增加。

现在的关心更为“脚踏实地”，比如这些技术究竟会在哪些应用场景中爆发？新时代的“苹果”或“Meta”会是什么样？大家都在期待着。

甲子光年：硅基流动成立一周年了，现在的结果是否达到了你一年前的预期？哪些方面做到了，哪些还没达到？

袁进辉：基本上达到预期了。

比如在技术指标方面、核心引擎的表现等，当时计划中的产品也成功推出。从用户的反馈来看，产品确实解决了他们的需求，用户体验优于其它选择。

至于没达到的部分是原来预想中的应用普及速度会更快些。比如原来希望我们的服务规模能超过一万卡，或者一天的token生成量能达到上千亿甚至上万亿。但因为产品推出的节奏和应用市场发展的速度都有所影响，这些指标还没完全实现。

甲子光年：在OneFlow被收购后，你有没有想过不做AI Infra方向吗？

袁进辉：没有动摇过，这背后可能与我的倾向或信念有关。

我的专长在于如何通过技术最大化地发挥价值，我一直想做一种能对各行各业都产生巨大影响力的产品。如果我们今天谈做应用，你会发现应用的成功更多依赖于产品的洞察，而且这种价值通常只在某一个特定领域里体现。

我的思考是，如何让产品能在更多场景中产生价值，而不仅仅局限于某一个应用中。这种追求也决定了我选择做基础设施层。有人会对应用有执念，比如让人们生活得更快乐、吃得更好、玩得更开心，那就该去做应用。

甲子光年：今年年初的时候，「甲子光年」曾经问过你：“如果一年后你可以问自己一个问题，你会问什么？”你的回答是“我成长了吗？”现在2024年已到年末了，你觉得自己成长了吗？

袁进辉：我觉得，只要每天做的事情不重复，每天都有新的问题需要解决，人在其中就会成长。只是成长的幅度大小不一。这一年的节奏太快，基本没有时间沉淀和深度思考，也是一种遗憾。像打仗似的忙于应对各种事情。

成长最多的地方是在日常业务上，如面向市场、跟踪和提炼市场需求、做产品迭代以及在公司内部配置资源，确保各个团队成员形成一个高效紧密的整体等。这个整体包括从研发、产品、运营增长到商业化的整个链条。在体系化搭建上我变得更加成熟了，不再只是专注于技术或研发指标。

（封面图由「甲子光年」制作）

海量资讯、精准解读，尽在新浪财经APP

文章关键词：推理 AI gpu

VIP课程推荐

加载中...

APP专享直播

1/10

新浪财经公众号

24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注（sinafinance）

“赛博菩萨”袁进辉，只想做好“Token工厂”｜甲子光年

VIP课程推荐

APP专享直播

股市直播

7X24小时

“赛博菩萨”袁进辉，只想做好“Token工厂”｜甲子光年

VIP课程推荐

APP专享直播

热门推荐

股市直播

7X24小时