GPT-4下岗了,上海高校和企业用DeepSeek开发大模型和智能体

GPT-4下岗了,上海高校和企业用DeepSeek开发大模型和智能体
2025年01月29日 20:53 媒体滚动

转自:上观新闻

深度求索公司研发的DeepSeek大模型最近“出圈”,其实,国内学术界和产业界使用这个系列的大模型已有一段时间。解放日报·上观新闻记者今天采访时了解到,上海交通大学计算机科学与工程系教授赵海去年已弃用GPT-4,改用DeepSeek-V3生成合成数据,开发垂类大模型。

达观数据公司去年5月就引入DeepSeek-V2大模型,开发办公智能体(Agent),取得了很好效果。“DeepSeek的性价比极高,而且全面开源,对产业应用很友好。”达观数据董事长、首席执行官陈运文博士说。

大幅提高办公智能体的专业能力

近年来,赵海团队利用GPT-4等基座大模型,为政府和企业开发了十多个垂类大模型。在开发过程中,基座大模型的主要作用是生成合成数据。这类数据通过人工方式生成,而不是从真实世界中获取,用于训练大模型。“我用过一些国产基座大模型,它们的效果和GPT-4比起来,还是有一定差距。”赵海教授告诉记者,“但使用DeepSeek-V3后,我发现它的性能与GPT-4处于同一量级,而价格只有GPT-4的十分之一,所以现在不用GPT-4了。”

与赵海团队相比,达观数据使用DeepSeek更早。陈运文介绍,DeepSeek-V2是一个精简高效的开源模型,只需要相对低配的GPU和显卡内存,就能让办公智能体获得很好的推理效果。DeepSeek-V3发布后,这家上海人工智能企业立即成为它的用户。

“这个大模型有6710亿参数,激活参数为370亿,在14.8万亿token(词元)上进行了预训练,生成速度比上一个版本V2.5模型提升3倍,达到每秒吞吐量60token。”陈运文介绍,“V3对GPU资源的使用效率极高,因为很多单位没有庞大的GPU集群,DeepSeek这种低资源、高效果的特性有利于今后大规模推广应用。”

DeepSeek-V3为何对GPU资源的使用效率极高?陈运文解释,它运用了多种技术创新,如采用MLA(多头潜在注意力)架构,成功压缩了键值缓存;使用对偶流水线机制,通过设计流水线调度,让GPU算力和通信算力在训练中并行隐藏,成功减少了计算瓶颈,实现几乎不间断的运算;还使用PTX这一接近汇编语言的低级指令集,对GPU进行细致控制,如调整寄存器分配和线程运行方式,从而更精细地管理GPU资源。

本月发布的推理大模型DeepSeek-R1在复杂的数学和逻辑任务上表现优秀,达观数据使用后,大幅度提升了办公智能体在审阅处理复杂的工程报告、金融文书、财务报表、招投标书等专业文档上的能力。

DeepSeek风靡美国后,投资者抛售人工智能主题相关股票,纳斯达克综合指数1月27日显著下跌。新华社发

R系列模型将推动科学智能发展

“DeepSeek-V3和DeepSeek-R1的问世,是大模型领域的标志性事件。”赵海认为,大模型近年来的发展历程可分为三个阶段:第一阶段的标志性事件是ChatGPT问世,其表现令人惊艳,但因为不开源,大多数开发者并不清楚这个大模型是如何开发出来的;在第二阶段,很多团队重现了ChatGPT开发过程,涌现出Llama、Qwen等一批开源大模型,这类模型的性能越来越强,但与OpenAI发布的大模型相比,存在一定差距;DeepSeek-V3和DeepSeek-R1则开启了第三阶段,它们的性能可分别比肩GPT-4和OpenAI o1,意味着开源大模型终于追赶上了闭源大模型。

这位长期研究自然语言处理的学者说,自从OpenAI在2020年发布不开源的GPT-3以来,这家标榜“从事开放性人工智能研究”的机构就背离了初心。如今,随着深度求索公司的异军突起,大模型研发可谓“回归初心”,让开源再度成为业内的主流形态。通过深度求索发布的技术报告,全球开发者都了中国研发团队的创新智慧。可以预见,DeepSeek将引发大模型创新和产业生态的变革。

未来,DeepSeek的R系列推理大模型最值得关注。赵海解释:“过去,ChatGPT等大模型像文科生,不擅长理科和逻辑推理。而对人类智慧来说,最底层的智慧是逻辑,逻辑之上是数学,再上面是物理、化学等科学。”去年9月,OpenAI发布的o1推理大模型改变了“文科生”形象,它擅长逻辑推理和数学,为今后将大模型用于科学研究、处理复杂任务奠定了基础。

目前,DeepSeek-R1的性能与OpenAI o1不分上下,为中国的科学智能(AI for Science)发展提供了利器。在赵海看来,人工智能这门学科的终点是“人工大脑”问世,这种通用人工智能(AGI)设备可用于研究数学、自然科学、社会科学等各个专业领域的复杂问题。未来20年内,科学家有望开发出“人工大脑”,从而颠覆现有的科研范式,使人类获取新知识和解决方案的效率大幅提升。

深度求索创始人梁文锋近日接受专访时表示,DeepSeek的终极目标是实现通用人工智能,而非仅仅追求商业化应用,“生成式AI只是通往AGI的必经之路,AGI有望在我们有生之年实现”。

海量资讯、精准解读,尽在新浪财经APP
gpu 赵海 智能体
2条评论|3人参与网友评论
最热评论
可以用DS大模型开发收割机在A股使用了
fantasy895918:基本收割不到真正代投資者,主要收割投機者。
2月1日01:36举报回复
可以用DS大模型开发收割机在A股使用了
fantasy895918:基本收割不到真正代投資者,主要收割投機者。
2月1日01:36举报回复

APP专享直播

开播时间 | 2-16 19:00
华安基金:ETF会客室:DeepSeek引领科技行情,后市如何投资?
开播时间 | 2-16 19:00
景顺长城基金:汇一代「综狮」 铸科技中国
开播时间 | 2-16 14:00
中国全固态电池创新发展高峰论坛:人工智能赋能全固态电池研发平台升级
开播时间 | 2-16 14:00
2025复旦大学管理学院新年论坛
开播时间 | 2-16 13:44
为您·预见—宁波银行开年投策会
开播时间 | 2-16 08:00
中国全固态电池创新发展高峰论坛:材料创新趋势与先进技术
开播时间 | 2-15 17:00
中国全固态电池创新发展高峰论坛:欧阳明高、孙世刚、王德平、孙华军等演讲
开播时间 | 2-14 20:00
「2025蛇年投资大趋势 」对话东方港湾但斌:拥抱时代 与优秀企业共成长
开播时间 | 2-14 19:30
专家解析:苹果选阿里,为什么不是DeepSeek?
开播时间 | 2-14 16:00
国君资管:“春季躁动”行情显现,股债市演绎如何?
开播时间 | 2-16 19:00
华安基金:ETF会客室:DeepSeek引领科技行情,后市如何投资?
开播时间 | 2-16 19:00
景顺长城基金:汇一代「综狮」 铸科技中国
开播时间 | 2-16 14:00
中国全固态电池创新发展高峰论坛:人工智能赋能全固态电池研发平台升级
开播时间 | 2-16 14:00
2025复旦大学管理学院新年论坛
开播时间 | 2-16 13:44
为您·预见—宁波银行开年投策会
开播时间 | 2-16 08:00
中国全固态电池创新发展高峰论坛:材料创新趋势与先进技术
开播时间 | 2-15 17:00
中国全固态电池创新发展高峰论坛:欧阳明高、孙世刚、王德平、孙华军等演讲
开播时间 | 2-14 20:00
「2025蛇年投资大趋势 」对话东方港湾但斌:拥抱时代 与优秀企业共成长
开播时间 | 2-14 19:30
专家解析:苹果选阿里,为什么不是DeepSeek?
开播时间 | 2-14 16:00
国君资管:“春季躁动”行情显现,股债市演绎如何?
上一页下一页
1/10

热门推荐

酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了 收起
酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了

酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了

  • 2025年02月15日
  • 11:55
  • APP专享
  • 扒圈小记
  • 29,865
APP专享
事闹大了,前国乒教练尹肖驳斥吴敬平:颠倒黑白!

事闹大了,前国乒教练尹肖驳斥吴敬平:颠倒黑白!

  • 2025年02月16日
  • 07:07
  • APP专享
  • 扒圈小记
  • 2,808
APP专享
重庆燃气道歉:针对燃气收费问题已派驻整改督导专班

重庆燃气道歉:针对燃气收费问题已派驻整改督导专班

  • 2025年02月16日
  • 09:51
  • APP专享
  • 北京时间
  • 2,326
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.26 +0.24%
京东方A 4.58 +1.55%
TCL科技 4.97 +1.64%
中远海控 14.63 +0.48%
格力电器 43.99 +0.39%
广告

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部