能思考会搜索的国产大模型,全网疯测的 DeepSeek 牛在哪?

能思考会搜索的国产大模型,全网疯测的 DeepSeek 牛在哪?
2025年01月29日 20:03 网易新闻

IT之家的家友们,蛇年吉祥!

在这个农历新年期间,科技界却并不平静...

距离 OpenAI 发布由 GPT-3.5 模型驱动的 ChatGPT 聊天机器人(19.460, -0.36, -1.82%),已经过去了两年多的时间。

在这两年间,不管是微软、谷歌这样的科技巨头,还是如雨后春笋般出现的初创企业,都在 AI 大模型领域,投入了巨额的资源。

算力逐渐膨胀,大模型的训练及推理成本也同样水涨船高。

OpenAI 去年推出的 ChatGPT Pro 会员,价格已经来到了每月 200 美元。

“屠龙者终成恶龙”,每月 20 美元的 ChatGPT Plus 会员,包含的 o1 模型使用次数,可以说仅仅只够“玩一玩”,很难真的应用于自己的工作之中。

如果未来成本进一步上涨,难道 AI 的未来,是每月 2000 美元的“ChatGPT Pro Max 会员”吗?

然而,一家来自杭州的“小公司” DeepSeek,却给整个 AI 行业带来了新思路,这两天可以说是火遍了全网。IT之家这就来跟大家一起看看是怎么回事。

01.用起来怎么样?

去年年底,DeepSeek-V3 模型发布,其多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

作为一款开源的 MoE 混合专家模型,DeepSeek-V3 当时获得了业内人士不少的关注,但是还并没有“出圈”。

不过,在 DeepSeek 官方的手机应用 1 月上旬上线之前,已经有一些山寨 App 准备凑热度了。

▲极速推出的的山寨应用▲极速推出的的山寨应用

而 1 月 20 日发布的推理模型 DeepSeek-R1,则在性能上实现了对 OpenAI-o1 正式版的对标。

此外,DeepSeek 也并没有藏着掖着,同期公开了 DeepSeek-R1 的训练技术,并且开源了模型权重。

而且对我们普通用户来说,DeepSeek-R1 直接在其官网免费开放使用。

而且,DeepSeek-R1 还可以联网搜索信息,增加了不少使用上的灵活性。

要知道,去年 10 月 31 号上线的 ChatGPT Search 搜索功能目前还不支持与 ChatGPT o1 模型协同使用,我们只能退而求其次选择 4o 模型。

此外,作为一款采用CoT 思维链技术的推理模型,DeepSeek-R1 直接把其思考过程显示给用户,这一点令我们可以直观感受到目前大模型技术的实力。

在海内外全网爆火的同时,DeepSeek 也承受了非常大的压力,相信我们不少家友都对下面这句话非常熟悉。

除了大量用户的涌入,DeepSeek 甚至还承受了大规模的恶意攻击。

要知道,即便是 ChatGPT,也经常出现宿机事件,这方面也希望大家可以“理解万岁”。

除了 671B 参数的完整模型,DeepSeek 还蒸馏了好几款小模型,32B 和 70B 模型也在多项能力上实现了对标 OpenAI o1-mini 的效果。

而这些蒸馏后的模型,我们已经可以尝试在自己的设备上,本地进行运行。

02.两把杀手锏- MoE混合专家模型

DeepSeek-R1 的成本优势,便在其官方 API 服务定价中体现了出来:

其输出 API 价格,甚至只是 ChatGPT o1 的约 3%,这就要聊到 MoE 混合专家模型了。

IT之家前面提到,DeepSeek-R1 是一款 671B 参数的模型,从传统的角度来看,运行起来绝不会轻松。

而 MoE 架构的核心思想,其实就是将一个复杂的问题分解成多个更小、更易于管理的子问题,并由不同的专家网络分别处理。

这样,当我们向 MoE 模型输入提示时,查询不会激活整个 AI,而只会激活生成响应所需的特定神经网络。

因此,R1 和 R1-Zero 在回答提示时激活的参数仅为 37B,不到其总参数量的十分之一,“让专业的人干专业的事”,推理成本大大降低。

其实,MoE 并不是一个新概念,最早起源于 1991 年的论文《Adaptive Mixture of Local Experts》。

不过这一思路的“起飞”,还要等到 2023 年 12 月 Mixtral 8x7B 模型的推出。

外界普遍认为GPT-4 就使用了 MoE 模型,但对于已经变成“CloseAI”的 OpenAI 来说,其旗舰模型的许多技术细节,我们无从得知......

- RL 强化学习

传统的 AI 大模型训练,使用的是SFT 监督微调过程,在精心策划的数据集上训练模型,教会它们逐步推理。

而 DeepSeek-R1 则使用 RL 强化学习的方法,完全依赖环境反馈(如如问题的正确性)来优化模型行为。

它也第一次证明了通过纯 RL 训练,即可提升模型的推理能力。模型在 RL 训练中自主发展出自我验证、反思推理等复杂行为,达到 ChatGPT o1 级别的能力。

这项技术,说明我们未来在训练的过程中,可能不再需要付出极为高昂的成本,获取大量经过详细标注的高质量数据。

03.多模态,补短板

尽管 DeepSeek-V3 和 DeepSeek-R1 十分强大,但他们还都是名副其实的“大语言模型”,并不具有多模态的能力。

也就是说,我们目前还没发把图片、音频等信息丢给他们,他们也不具备生成图片的能力,只能通过文字的方式来进行信息交流。

目前 DeepSeek 官方提供的文件上传能力,其实只是走了一遍文字 OCR 识别。

不过,就在 1 月 28 日凌晨,DeepSeek 开源了全新的视觉多模态模型 Janus-Pro-7B。

其在 GenEval 和 DPG-Bench 基准测试中击败了 Stable Diffusion 和 OpenAI 的 DALL-E 3。

不过作为一款仅有 7B 参数的“小”模型,Janus-Pro目前只能处理 384 x 384 分辨率的图像。

但我们相信,这只是一道开胃菜,我们期待在新思路下,DeepSeek 未来多模态大模型的表现。

04.除夕不眠夜

DeepSeek 的爆火,让不少 AI 大模型领域的“友商”,都没法无视这样一家“小公司”。

今天(1 月 29 日)凌晨,农历新年的钟声刚刚敲响,阿里通义团队带来了他们的“新年礼物”——Qwen2.5-Max 模型。

通义千问团队,也在 Qwen2.5-Max 模型的介绍中提到了 DeepSeek-V3。

与业界领先的模型(包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet)相比,Qwen2.5-Max 的性能表现也相当有竞争能力。

在基座模型的对比中,与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B 相比,Qwen2.5-Max 在大多数基准测试中都展现出了优势。

目前 Qwen2.5-Max 已经面向用户开放,不过作为“Max”定位的模型,Qwen2.5-Max 暂未开源。

而与 DeepSeek-R1 的直接对决,我们可能要等到未来新版的 QwQ、QVQ 模型。

OpenAI 的 CEO 阿尔特(12.120, -0.09, -0.74%)曼也对 DeepSeek-R1 进行了评价:

▲很“官方”的标准回答▲很“官方”的标准回答

面对大家价格上的抱怨,阿尔特曼也表示未来的 ChatGPT o3-mini 模型将会开放给免费用户使用,Plus 会员则每天有 100 条请求的额度。

此外,新的 ChatGPT Operator 功能也将尽快向 Plus 会员开放,而 OpenAI 的下一款模型也不会由每月 200 美元的 Pro 会员独占,Plus 会员就能用

这究竟是来自于 DeepSeek 等竞争对手的压力,还是 OpenAI 自身的成本优化,我们不得而知。

我们期待着在 2025 年,还会有哪些关键领域的突破,AGI通用人工智能是不是也离我们越来越近了。

海量资讯、精准解读,尽在新浪财经APP
推理
0条评论|0人参与网友评论

APP专享直播

开播时间 | 2-16 19:00
华安基金:ETF会客室:DeepSeek引领科技行情,后市如何投资?
开播时间 | 2-16 19:00
景顺长城基金:汇一代「综狮」 铸科技中国
开播时间 | 2-16 14:00
中国全固态电池创新发展高峰论坛:人工智能赋能全固态电池研发平台升级
开播时间 | 2-16 14:00
2025复旦大学管理学院新年论坛
开播时间 | 2-16 13:44
为您·预见—宁波银行开年投策会
开播时间 | 2-16 08:00
中国全固态电池创新发展高峰论坛:材料创新趋势与先进技术
开播时间 | 2-15 17:00
中国全固态电池创新发展高峰论坛:欧阳明高、孙世刚、王德平、孙华军等演讲
开播时间 | 2-14 20:00
「2025蛇年投资大趋势 」对话东方港湾但斌:拥抱时代 与优秀企业共成长
开播时间 | 2-14 19:30
专家解析:苹果选阿里,为什么不是DeepSeek?
开播时间 | 2-14 16:00
国君资管:“春季躁动”行情显现,股债市演绎如何?
开播时间 | 2-16 19:00
华安基金:ETF会客室:DeepSeek引领科技行情,后市如何投资?
开播时间 | 2-16 19:00
景顺长城基金:汇一代「综狮」 铸科技中国
开播时间 | 2-16 14:00
中国全固态电池创新发展高峰论坛:人工智能赋能全固态电池研发平台升级
开播时间 | 2-16 14:00
2025复旦大学管理学院新年论坛
开播时间 | 2-16 13:44
为您·预见—宁波银行开年投策会
开播时间 | 2-16 08:00
中国全固态电池创新发展高峰论坛:材料创新趋势与先进技术
开播时间 | 2-15 17:00
中国全固态电池创新发展高峰论坛:欧阳明高、孙世刚、王德平、孙华军等演讲
开播时间 | 2-14 20:00
「2025蛇年投资大趋势 」对话东方港湾但斌:拥抱时代 与优秀企业共成长
开播时间 | 2-14 19:30
专家解析:苹果选阿里,为什么不是DeepSeek?
开播时间 | 2-14 16:00
国君资管:“春季躁动”行情显现,股债市演绎如何?
上一页下一页
1/10

热门推荐

酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了 收起
酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了

酒后在小区挪车被认定醉驾吊销驾照,司机起诉交警!法院判了

  • 2025年02月15日
  • 11:55
  • APP专享
  • 扒圈小记
  • 29,865
APP专享
事闹大了,前国乒教练尹肖驳斥吴敬平:颠倒黑白!

事闹大了,前国乒教练尹肖驳斥吴敬平:颠倒黑白!

  • 2025年02月16日
  • 07:07
  • APP专享
  • 扒圈小记
  • 2,808
APP专享
重庆燃气道歉:针对燃气收费问题已派驻整改督导专班

重庆燃气道歉:针对燃气收费问题已派驻整改督导专班

  • 2025年02月16日
  • 09:51
  • APP专享
  • 北京时间
  • 2,326
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.26 +0.24%
京东方A 4.58 +1.55%
TCL科技 4.97 +1.64%
中远海控 14.63 +0.48%
格力电器 43.99 +0.39%
广告

7X24小时

  • 01-17 宏海科技 920108 5.57
  • 01-16 亚联机械 001395 19.08
  • 01-16 海博思创 688411 19.38
  • 01-14 富岭股份 001356 5.3
  • 01-13 超研股份 301602 6.7
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部