转自:上观新闻
“到2025年底,建成世界级人工智能产业生态;力争全市智能算力规模突破100EFLOPS;形成50个左右具有显著成效的行业开放语料库示范应用成果;建设3—5个大模型创新加速孵化器,建成一批上下游协同的赋能中心和垂直模型训练场。”2024年12月,上海发布《关于人工智能“模塑申城”的实施方案》(以下简称《实施方案》),在方案中提出了一系列有关人工智能产业发展的目标。
在先后经历了信息化、数字化革新后,上海正在积极投入城市“数智化”建设,为以大模型为代表的新一代人工智能产业的发展添瓦加砖,为强化大模型基础底座赋能。
在今年1月举行的上海市“人工智能+”行动推进大会暨中国—金砖国家人工智能发展与合作中心基地启用仪式上,“模塑申城”五大公共服务平台正式亮相,包括由上海仪电集团运营上海智能算力公共服务平台、库帕思牵头“模塑申城”语料普惠计划、上海人工智能实验室运营大模型评测与验证中心、上海创智学院牵头“百人百项”青年科学家计划,以及上海国投—徐汇融资服务中心。
作为大模型最重要的燃料,算力和语料直接关系着大模型产业落地的进展。经过并不算长的时间的跨越式发展,这两大关键平台目前不仅为上海的基础模型企业提供保障,同时也正在顺应垂类应用蓬勃发展的趋势,为企业创新提供高性价比、高质量的算力与语料支持。
国资扛起算力供给重任
曾经参与筹办了以往七届世界人工智能大会的孙跃在2024年7月有了新的身份——上海仪电智算科技公司总经理。
“2023年,随着国产大模型的蓬勃发展,市里意识到建设完善支撑大模型发展的智能算力功能性公共服务设施的重要性。”与以往超算中心以CPU为主的算力不同,大模型的训练和推理都需要由GPU支撑,且算力需求呈现指数级增长。“缺卡缺算力”成为大模型创新的一个关键掣肘,业内预计这种供需不平衡可能在未来三五年都会持续存在,人工智能日新月异的迭代速度决定了抓住产业发展窗口期的迫切性。

上海仪电(集团)有限公司作为大股东承担起了上海仪电智算科技公司的牵头建设工作。
为此上海决定设立一个国资的算力平台,为上海的大模型企业和科研单位提供基础的人工智能算力保障,降低创新成本。这一意见很快得到落实,上海仪电(集团)有限公司作为大股东承担起了上海仪电智算科技公司的牵头建设工作,当年即投入运营。
“经过两年时间,我们已经建成投产了多个万卡集群。”孙跃介绍说,目前上海仪电智算科技公司正在为上海的重要大模型企业以及研究机构提供算力服务,支持他们的科研和大模型开发,包括上海算法创新研究院、大模型创业企业阶跃星辰等。
相对于自建集群来说,租用算力可以免去承担巨额硬件资产的投入成本。“我们的目标是通过相对低成本的规模化运营为上海的人工智能创新企业和战略客户提供灵活的公共算力服务。”
除了成为公共算力服务商,打造国产算力软硬件生态也是上海仪电智算科技公司作为国资功能性平台的另一个重要使命。
“作为上海市智能算力公共服务平台,要发挥国产智算产业链生态链接和引领作用,通过国产芯片软硬件和解决方案适配来降低国产芯片的使用门槛,让国产算力能够更好地服务大模型发展。”
孙跃介绍,上海仪电智算科技公司从2024年初开始建设国产化AI算力适配测试中心,目前已完成十余款国产芯片的适配测试,并开展国产软硬件平台的适配和新技术验证,有力支撑了我国自主创新生态的构建。
伴随着人工智能技术的深入发展和大规模应用,模型后训练和推理需求可能很快会超过预训练算力需求,而在此之前,作为上海仪电智算科技公司来说,需要为新一轮产业和技术革命的到来提前做好算力保障和稳定供应的准备。目前,上海市智能算力公共服务平台一方面进一步强化规模化的智算集群工程建设运营能力。同时,着力推动基础设施IaaS、软件工具平台PaaS、语料数据层DaaS及模型层MaaS能力整合,提供“训推一体、混合部署”的智算云服务,加速向国内一流的智算云公共服务商转型,支撑本市大模型行业垂类应用和千行百业数字化转型。
语料供给有了正规军
在AI应用中,语料质量直接决定了模型的性能。高质量的训练数据能够有效减少模型在推理过程中的错误率,提高模型在实际应用中的创作能力和生成质量。
近两年,随着AI技术的快速发展,产业界也越发意识到数据质量管理的重要性。不过,数据市场普遍存在授权难、成本高和版权风险大的问题。
授权难是指模型公司难以通过合规渠道获取语料,有碍于基础模型和垂类模型的商业化应用推广和技术迭代创新。成本高则体现在当前购买语料的价格大部分是以版权计价的方式进行,授权周期通常为1年,到期还需销毁,继续使用需要再次收费。而在版权方面,近两年,人工智能版权纠纷的问题让大模型公司经常处于“风口浪尖”上。
“之前语料数据管理市场没有方法论,俗称‘乱炖’式,找来的数据对提升模型能力究竟有没有帮助,效果未知。”上海库帕思科技有限公司(以下简称“库帕思”)董事长山栋明日前在接受澎湃科技采访时坦言当前数据市场存在的“难言之隐”。
库帕思成立于2024年3月下旬,是按照上海市委、市政府部署,由上海联和(信投)牵头,协同相关数据资源方和大模型相关企业组建的中国第一家人工智能语料公司,专注于大模型和垂类模型的发展,聚焦高质量人工智能语料供给。
库帕思定位是带有功能性的语料服务专业化运营平台,提供一站式的高质量语料服务,推进多层次语料体系建设。“通俗理解,我们有三个角色,一是数据标注施工队,二是语料处理总包商,三是语料专业开发商。”山栋明介绍说。

库帕思定位是带有功能性的语料服务专业化运营平台。
经过近一年的实践,库帕思围绕服务万亿级参数模型训练持续扩容基础语料库,去年9月完成第二批语料采购和交付任务,已经启动第三批语料清单方案。目前已经实现成品语料输出约200TB,链接生态主体超100家,直接服务器机构数量超30家。同时围绕打造中国版Sora,推动高质量多模态语料供给,与众多内容供给企业形成合作。
在语料服务模式上,库帕思也改变硬盘拷贝、云端传输等传统数据交付方式,根据基础模型、垂类模型、端侧模型不同需求,提供语料动态配比、知识修正、价值对齐、快速封装等“一站式”交付服务。库帕思提出的系统化清洗流程,涵盖了从数据预处理到语法纠正的多个步骤。这种方法不仅提高了标注数据的准确性,还大大减少了人工干预的频率,从而提升了数据处理的整体效率。山栋明介绍,传统数据公司只提供原始数据,而库帕思提供清洗标注后的语料,可直接用于模型训练。
此外,针对业内缺乏统一的高质量数据集定义标准,导致不同公司、不同机构或平台即便有了高质量数据,但仍要耗费人力和时间重新处理数据标注的情况,库帕思自成立以来也在推动语料工作的标准创新。
在2024世界人工智能大会语料主题论坛上,库帕思公司同覆盖多模态数据资源供应、加工、应用和运营全链在内的近二十家企业共同发布了团体标准《语料库建设导则》。在语料数据清洗方面,库帕思在国家知识产权局申请了一项名为“语料数据的清洗和质检方法、设备、存储介质及程序产品”的专利。该专利公开号为CN119128385A,申请日期为2024年9月。专利的核心在于有效提升语料数据的质量,这对于AI领域尤其是自然语言处理(NLP)和知识图谱等应用具有深远影响。
“我们把自己定位为人工智能拼图中的生态链接者,致力于制定行业标准,构建AI生态。”山栋明说。
为垂类模型企业降低创新成本
伴随着大模型行业发展需求的变化,上海仪电智算科技公司从去年开始也在逐步转型,“起初我们主要任务是保障基础大模型用户,现在随着大模型行业应用的发展,我们的服务对象扩展至各类垂类大模型企业。”孙跃说。
和基础大模型相对量大、稳定的算力需求相比,垂类模型的算力需求更加灵活,“可能每次需要的量不多,频率也不稳定,这就需要我们有更加灵活的应对方案。”为此,从2024年起,上海仪电智算科技公司不仅提供自己的算力,还在打造一个算力的灵活调度平台,通过平台协调其他社会算力资源,来共同服务垂类大模型的算力需求。“资源集中化、规模化后,才能提高资源的有效利用率,从而降低成本。”孙跃介绍说。
山栋明也表示,自成立以来,库帕思也在一路探索模型公司对语料需求的变化。和上海智算公司一样,库帕思在创立之初也主要服务于基础大模型,随着产业不断演进,模型未来的核心不仅仅是基础大模型能力本身,而与应用紧密挂钩。在应用领域,过往选模型的逻辑并不适用现在,“某些模型整体表现不错,但在特定应用场景中,表现未必最好”,其中差异的关键在于用于模型训练语料的不同。
库帕思的目标是大幅降低居高不下的AI应用成本,让开发垂类模型的中小企业能够零门槛使用数据,实现“开箱即用”。此外,在垂类领域上,已聚焦“5+6”垂类领域(金融领域、医疗领域、制造领域、教育领域、文旅领域、城市治理领域)按照“一业一方法”建设行业语料库。

库帕思聚焦“5+6”垂类领域按照“一业一方法”建设行业语料库。
此外,库帕思也在发力具身智能、机器人(19.870, 0.47, 2.42%)等前沿垂类领域的高维语料需求市场,目前该公司已经联合上海国地中心、智元、傅利叶、开普勒、21所编制发布《具身智能语料库建设导则》,下一步库帕思将推动具身智能真机数据采集上规模和上质量,在世界人工智能大会前将发布更大规模、更多样场景的具身智能语料库。此外,进一步增强语料智能清洗与质量保障、智能合成和模型价值对齐、智能配比和知识修正等方面的技术能力。



APP专享直播
热门推荐
建议孩子违法家长必须赔偿被害人 收起建议孩子违法家长必须赔偿被害人
- 2025年03月06日
- 00:55
- APP专享
- 扒圈小记
18,822
超30万人爆仓!比特币上演“过山车”行情
- 2025年03月05日
- 15:28
- APP专享
- 扒圈小记
5,891
世纪交易!李嘉诚228亿美元卖掉43个港口
- 2025年03月06日
- 04:51
- APP专享
- 北京时间
5,784

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)
投资研报 扫码订阅
股市直播
-
数字江恩今天 09:49:09
无论如何,3140的反弹大波段没有结束。这里短线走得变幻莫测,但也还未脱离abc后的震荡结构。震荡结构只要还未确立新的12345开始,那么不追高、不杀跌,维持中性仓位在非高位热点,就是合理的。 -
数字江恩今天 09:49:05
大盘上周开始,就在宽幅震荡回踩和之字形震荡之间左右摇摆。明日首先关注3356/3350支撑,这里只要不跌破是可以直接攻击3400整数位以上一些,走出之字形震荡的。相反,若跌破3350则还会回踩一轮看图上白色方框支撑。 -
数字江恩今天 09:48:58
看5分钟图,今日大盘拉升,回到了图上的红色轮谷线以上,这算是短线意外事件。但已经拉动了力度,短线结构就有所改变。图上的白色方框为3388下跌白色第二轮空间范围,这个白色方框首先看为大盘支撑,即再次回踩也先看支撑,而非直接新低3297了。【更多独家重磅股市观点请点击】 -
数字江恩今天 09:48:45
板块上,今日证券保险,地产,酿酒和有色拉抬指数。ai应用、国产算力,云和数据中心涨幅靠前。 -
数字江恩今天 09:48:40
A股两市今日成交7364 + 11700 = 19064 亿人民币,显著放量。大盘跳空高开后,全天向上运行,收涨39个点,吃掉了上周五的大阴线。个股方面,80%的个股收红上涨。 -
数字江恩今天 09:48:36
短线决定震荡形态 -
北京红竹今天 07:59:06
3、放量阳线上涨4275家,下跌974家,涨停118家,跌停5家。现在情绪非常好,期待市场继续延续高涨的情绪,如果市场继续上涨,而且放量上涨,那么即便是2个2个中枢的形成,上方还有空间,就怕新高之后无量,反复震荡。站在不同角度吧。有仓位的肯定是希望市场继续上涨,别缩量。没有仓位的这里不适合开仓了,肯定是希望市场别涨了。但希望没用,看市场的选择吧,来啥接啥。 -
北京红竹今天 07:59:01
2、DS第二波启动一共两条主线,一个是人形机器人(sz300024)另外一个是DS。人形机器人(sz300024)的结构没什么变化,如果新高将构造五分钟级别第三个中枢。但DS就是完全不一样了,它三十分钟级别二买的确立,后面还会有溢价上涨。特别是滞涨类的品种。目前三十分钟级别二买确立的上涨,刚刚只有一笔的反弹,需要的反弹段还没有完成。接下来不管指数涨跌,DS都可以继续挖掘。上周日在【每周内参】中更新的DS个股也不少,本周日更新话,还会围绕科技主线,寻找一些日线级别上涨没完,三十分钟级别又处于二买或者三买区间的。 -
北京红竹今天 07:58:56
1、大涨观点也没变化新读者慢慢的就会习惯了,缠论在观点上不会变来变化,主要是缠论不是预测,而是做分类,然后应对。第一种,没有构造出三十分钟级别回落段,直接阳包阴,那就继续玩短线,长线准备找卖点。第二种,形成三十分钟级别回落段,大级别依然没有卖点,ETF和波段可以布局。今天沪指并没有过高,也没答案,那就继续等了。万一明天跌呢?万一明天涨呢?总之,市场怎么走都可以,总之,暂时还不谈大风险,这是一直强调的问题,中间的走势都是细节。 -
趋势领涨今天 07:54:02
国家创业投资引导基金存续期达20年 将吸引带动地方、社会资本近1万亿元;中央财政预留了充足的储备工具和政策空间;今年将根据国内外经济金融形势和金融市场情况择机降准降息;央行与证监会探索常态化的制度安排 支持资本市场发展。没有什么亮点!基本都是在市场预期之内。