给AI公司“打杂”,95后华人把估值做到138亿美元

给AI公司“打杂”,95后华人把估值做到138亿美元
2024年09月30日 11:06 创业邦

来源:创业邦

AI时代的卖铲人不止英伟达。AI时代的卖铲人不止英伟达。

者丨Juny

编辑丨海腰

图源丨BLOOMBERG

在旧金山的 Showplace 广场,一栋曾经属于Airbnb的商业大楼最近迎来了新主人。在大部分科技公司都在业务收缩的当下,Scale AI,这家由95后华人创立的人工智能数据标注公司,大手一挥租下了旧金山市中心约18万平英尺的办公室。

就在不久前,Scale AI完成了最新一轮10 亿美元的融资,估值达到138 亿美元,比上一轮的73亿美元再翻了一倍。在这轮由硅谷顶级基金Accel领投的F轮融资中,除了YC、英伟达等现有投资者之外,还加入了一长串的新投资者名单,包括:亚马逊、Meta、AMD、高通、思科、英特尔、高通等等,参与机构高达22个。

而这些巨头投资Scale AI的出发点大多相似——它们基本都是Scale AI的客户。在AI飞速发展的当下,数据标记,这个看似简单无趣、劳动密集的低门槛业务,却被Scale AI一步一步地做成了一个大生意。

AI“蓝领工厂”

在过去的一段时间里,提起“AI卖铲人”,英伟达无疑是被提及最多的公司。但很多人不知道的是,Scale AI也扮演着同样的角色。众所周知,算力、算法和数据构成了人工智能的三大支柱,英伟达占据着AI算力的山峰,Scale AI则是当前为AI提供数据支撑的最主要服务商。

Scale AI 成立于2016,其创始人是生于1997年的华人Alexandr Wang,创立公司时年仅19岁,在MIT刚读完大一。Scale创立之初主要专注于人工智能数据标注,核心业务是帮助企业收集、清理、标注、以及管理大规模的高质量数据,以便训练和优化机器学习模型。

实际上,在Scale AI崛起之前,数据标注在AI领域实际上长期处于“边缘”位置。所谓的数据标注,是指为图像、文本、视频或音频等原始数据添加结构化信息,以便机器学习模型能够理解和学习这些数据的过程。听起来好像很复杂?但其实这是个小学生都能做的事情,比如给你一张图片,让你标出图片中的行人、车辆、建筑等,给你一段文本,让你标写哪些感叹句、哪些是疑问句,给你一段语音让你打上情绪或说话者身份标签等等。

图源:Shaip图源:Shaip

虽然原理很简单,但这些经过标注的数据对于人工智能的发展不可或缺。AI模型需要大量的标注数据来进行学习,才能具备识别、分类和预测等功能。

但让众多AI公司头疼的地方是,尽管一些自动化工具可以加快部分标注过程,但为了得到高质量、高精确度的标注数据,仍然需要大量的人工来处理、标记和验证数据。特别是在高精度要求的领域,如医学影像、自动驾驶或军事应用,错误标注可能会导致严重的后果。也正因如此,数据标注被认为是一个劳动密集型业务,很多公司不愿意也没有精力去自己管理,导致标注数据的获取的过程既耗时又昂贵。

Scale AI揽下了这个“辛苦活”。Scale AI 的早期定位是要通过结合自动化技术与人力审核,创建一个高效、精确的标注平台,帮助企业快速处理和标注大规模的数据集。它的业务模式很简单:接洽到有标记需求的公司,对数据进行简单的预处理和清洗之后,将其外包给非洲、东南亚等劳工对数据进行标记。

2017年,Scale AI 成立了 Remotasks 作为其内部外包机构,在肯尼亚、菲律宾、委内瑞拉等地设立了几十家机构,在各地培训了成千上万的数据标注员,这些标注员的工作大部分都是按件计酬,一次标注的收入低至几美分,很多合约工在时薪甚至不到1美元。而在这样的“全球工厂”模式下,Scale AI的毛利率却能长期保持在65%以上。

踩中每一次风口

虽然数据标注看上去是一个低门槛的业务,但在2016年前后的“AI沉寂期”中却几乎是一个市场空白,只有谷歌、亚马逊等一些大公司有自己的数据标注部门。而Scale AI 的成功很大程度上得益于它精准地洞察到了这一机遇并且抓住了近10年来人工智能行业发展的几次风口。

首先是自动驾驶。在Scale AI成立几个月后,他们就发现了自动驾驶领域对于数据标注的大规模和刚性需求。自动驾驶技术的发展依赖于大量高精度的标注数据,例如道路场景、行人和其他物体的图像数据,车企需要成千上万小时的视频数据进行标注来训练和验证其算法,就整个自动驾驶行业来看,当时90%以上的数据标注都是以人工为主。Scale AI 通过高效的数据标注平台,以及使用模型辅助标注和数据预处理来加速数据处理流程,进而大幅降低了标注成本和时间,吸引了当时风头正盛的Waymo、Cruise等企业成为了它的客户,进而逐渐在自动驾驶数据标注领域站稳脚跟。

图源:Scale AI图源:Scale AI

在自动驾驶领域初尝甜头之后,Scale AI开始全面进军AIaaS(AI 即服务)市场。它从单纯的数据标记延伸到数据服务,提供从数据标记和管理、模型训练和评估,再到AI 应用开发和部署的全流程解决方案。

此外,为了应对某些行业数据不足的挑战,Scale AI还向下游延伸到合成数据的生成,通过从现有数据中创建新的数据集,帮助训练模型。于是在之后的几年里,Scale AI在数据领域迅速崛起,客户也扩展到了医疗、国防、电商、政府服务等领域。在成立两年多之后,Scale AI的营收已经接近5000万美元。

Scale AI还精准地把握了生成式 AI爆发的机遇。早在GPT-2上,Scale就与 OpenAI 就进行了首次带有人类反馈的强化学习合作实验,接着将这些技术扩展到InstructGPT及其他领域。而由于生成式 AI 模型需要海量的训练数据来提升其生成内容的准确性和多样性,大语言模型的爆发式增长极大地推动了整个行业对高质量标注数据的需求,Scale AI 通过整合数据标注、数据合成等服务,为生成式 AI 提供了必要的数据支持。此外,Scale AI还帮助企业快速生成定制化的 API,以减少了自行训练模型的复杂性和成本。

图源:Scale AI图源:Scale AI

针对生成式AI,Scale目前已经推出了全流程的平台服务,包括开发者工具平台 Scale Spellbook、合成数据产品 Scale Synthetic、企业级GenAI平台等,目标是让企业在每一个场景下都有足够的数据来支持模型的训练,凭借着在数据领域的独特优势,过去两年,Scale AI的客户激增,既有OpenAI、Meta、AWS、英伟达这样的巨头,也有Cohere、Adept等这样的新兴独角兽。而他们中的很多,也在这一轮融资中成为了Scale AI的投资者。

为什么是Scale AI突围

关于Scale AI的崛起,很多人都很疑问,对于这样一个处于AI上游且劳动密集的行业,中国似乎具有先天的优势,为什么没有类似的企业脱颖而出?总体来看,这背后主要有两方面的因素,一是行业,二是融资。

在生成式AI热潮之前,国内的人工智能发展在场景应用方面一度领先,数据标注业务其实很早就起步发展了,但并没有形成规模。很多龙头企业虽然成立了数据标注部门,但主要是来为自身业务服务,而并不是寻求将数据与各个行业进行资源匹配。同时,正因为国内的人口红利,让标注后的数据获取成本低廉,也让企业并没有动力去采用技术平台。据了解,长期以来,国内的数据标注行业的价格都很透明, 时薪普遍在10-25人民币左右且大多没有学历限制。

图源:Boss直聘图源:Boss直聘

而相较而言,美国人力成本高昂,在LinkedIn、indeed等平台上,数据标注的兼职时薪大多都在30-200美元之间,这在客观上就要求企业需要从技术的角度去思考解决数据生产问题,或者采购相关服务。

从融资环境来看,国内的数据标注市场一直都处于AI领域的融资边缘地带。2021年左右,研究估计中国整个数据标注市场的规模仅为43亿人民币,2022年仅增长至51亿人民币。这个数字相较于整个AI市场的千万亿规模无疑不值一提,也造成了数据标注公司的融资困难。2021年,当Scale AI已经完成3.25亿美元的E轮融资,估值达到了73亿美元时,中国的同类创业公司大部分还停留在A轮。

之所以此前国内的规模如此之小,是因为只是单纯考虑了标注这一个环节。而实际上,从数据标注所衍生出来的数据管理、数据评估、数据合成等全流程的数据服务才是这个行业中的增值部分。

关于数据对于大语言模型发展的重要性,Scale AI的创始人Alex Wang在最近的访谈中谈到,人们已经用尽了互联网上的所有数据,想要开发出比GPT-4.5更强大的人工智能,则必须构建前沿数据。所谓的“前沿数据”是指那些与应用场景密切相关、能及时反映最新趋势和变化的数据,往往包含大量长尾或少见的场景,有助于提升AI在非典型情况下的表现,推动人工智能能力的边界向复杂推理、多模态等方向发展。

随着AI向纵深发展,未来的数据训练需要更多地与特定任务、特定应用场景相匹配,因此也需要挖掘和生产出更多新的、差异化的数据,这是Scale AI此轮10亿美元融资之后的工作重点,也进一步打开了数据标注的想象边界。

新浪科技公众号
新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

创事记

科学探索

科学大家

苹果汇

众测

专题

官方微博

新浪科技 新浪数码 新浪手机 科学探索 苹果汇 新浪众测

公众号

新浪科技

新浪科技为你带来最新鲜的科技资讯

苹果汇

苹果汇为你带来最新鲜的苹果产品新闻

新浪众测

新酷产品第一时间免费试玩

新浪探索

提供最新的科学家新闻,精彩的震撼图片