DeepSeek赋能固收研究初探

DeepSeek赋能固收研究初探
2025年02月20日 17:10 市场投研资讯

(来源:覃汉研究笔记)

近期DeepSeek的卓越性能引发全球热议,作为固收大模型系列报告的起点,本文将基于固定收益投资者的视角,对大模型在投研工作中的使用进行初步介绍和测试,以供投资者参考,后续我们将会尝试将DeepSeek应用到在债券研究中的实际应用场景。

大模型分类与特点概述:大语言模型基于深度神经网络构建,通过自监督学习在海量无标注文本上训练,能实现多种自然语言处理任务。可从模型大小(预训练与微调模型)、使用方式(提示词工程模型)、功能维度(指令类与推理类模型)、应用领域(领域特定与通用模型)等维度分类。大模型在金融任务中应用广泛,如金融推理、情感分析、金融时间序列分析等。本文初步介绍了 DeepSeek、通义千问、豆包、GPT、BLOOM及其金融衍生、Llama 系列等金融大模型的特点及应用。

DeepSeek简介:DeepSeek是由深度求索公司开发的人工智能产品,聚焦实现通用人工智能。其核心产品是基于大规模预训练模型的智能助手,具备自然语言理解、生成、推理和多模态交互等能力。目前有基础模型(V3)、深度思考(R1)与联网搜索三种模式。DeepSeek创新降本且性能突出,推理架构优化实现低延迟响应,支持长文本处理,在垂直领域精准度高。其检索增强生成(RAG)方案能生成更可靠输出,解决传统模型“幻觉”问题。

DeepSeek应用场景初探:DeepSeek涵盖多种登录方式,包括官网及手机 APP 登录、本地部署、云端平台接入 API。应用层面,DeepSeek具有信息检索、编程代码、逻辑推理等多种功能。信息检索基于联网搜索模式和 RAG 方案,能实时获取数据并提供准确全面答案,适用于市场分析、行业研究和政策解读等。逻辑推理功能在多维数据分析及事件推演方面优势显著,能整合数据并推导因果关系,支持情境分析与假设推演,有助于制定投资策略。

作者覃汉/崔正阳/章恒豪

全文:7313 字 | 15 分钟阅读

一、引言

1.1 市场展望 

在金融市场复杂度不断攀升的背景下,大模型凭借其强大的数据处理、规律识别以及基于数据决策的能力,备受业界关注。随着 AI 技术的发展,特别是大语言模型(Large Language Models,简称 LLM)的兴起,金融投研工作迎来全新机遇与挑战。随着深度学习技术突破,Transformer 架构和自监督学习的进步,大模型量化方法在金融领域迅速崛起,其能处理自然语言和图像数据,通过分析市场新闻、财报等非结构化数据辅助投资决策,具备强大的模式识别能力,可处理多源异构数据,捕捉传统方法难以发现的复杂关系。

2025年1月上线的 DeepSeek模型表现亮眼,凭借低成本、高性能、开源的特点引发市场热议,注册用户数激增,迅速超越 ChatGPT成为现象级产品,节后各行业加速部署,推动国产 AI 发展。大型企业出于数据安全和模型微调需要,常对 DeepSeek 进行私有化部署。

大模型的普及对投研工作影响深远。投研工作涉及大量数据分析、文字处理和非结构化数据挖掘等事务,而DeepSeek在逻辑推理、信息检索、年报解读、纪要整理等基础工作上表现优异,有助于大幅提升工作效率。作为DeepSeek赋能债券研究系列报告的起点,本文将基于固定收益投资者的视角,对DeepSeek在投研工作中的使用进行初步介绍和测试,后续我们将会尝试将DeepSeek应用到在债券研究中的实际应用场景。

二、何为大语言模型?

大语言模型是一类基于深度神经网络构建,参数量通常在数十亿或更多数量级的语言模型。这类模型一般通过自监督学习方法,在海量无标注文本上进行训练,进而学习到丰富的语言知识和语义理解能力,能够实现文本生成、问答、翻译、摘要等多种自然语言处理任务。当前,大型模型已经在多样的下游任务中逐步展现出其应用潜力,众多研究也正在积极探索将这些模型应用于广泛和垂直的金融任务中。

我们可以将大语言模型(LLMs)从不同维度进行分类,如按模型大小分为预训练与微调模型、按使用方式维度可分为指令类、推理类模型和提示词工程模型。

2.1 预训练与微调模型

预训练大语言模型(Pre-trained Language Models,PLMs)通常是参数数量相对较少的金融领域预训练语言模型。尽管规模较小,但其在金融领域特定任务上进行了优化。预训练模型(PLM)在大规模文本数据预训练,通过学习通用语言,为后续微调(Fine-tune)提供基础,一般不直接用于特定任务。微调模型则基于预训练模型,用特定任务数据微调以提升在特定任务的表现。

2.2 提示词工程模型

提示词工程大语言模型一般是具有大量参数(通常超过十亿个参数)的大型语言模型,该类模型在金融领域经过特别优化或调整,以处理复杂的金融文本和数据。开发者和研究人员需依据具体需求和任务,选择合适类型的大语言模型,以实现最佳效果。通过利用提示词(Prompt Engineering)引导模型生成特定输出,合理设计提示词可最大化模型在各类任务中的表现。

提示工程(Prompt Engineering)聚焦于提示词的开发与优化,旨在助力用户将大语言模型应用于各类场景与研究领域。掌握提示工程技能,有助于投研人员深入洞悉大型语言模型的能力边界与局限。在投研领域,投研人员可借助提示工程,提升大语言模型处理复杂任务场景的能力,如强化问答、算术推理等能力。通过提示工程,用户既能增强大语言模型的安全性,还能借助专业领域知识、外部工具等,赋能大语言模型,提升其综合能力。如下图所示,若我们对大模型进行适当提示,能高效地提高其推理能力。

2.3 指令类与推理类模型

推理类大模型(Inference Models)专注于复杂场景中的信息分析与逻辑推断,其核心能力基于多源数据的理解和逻辑关系建模,生成深度推论。相比通用模型,推理类模型更强调数据之间的隐性关联及因果逻辑的挖掘,适合解决非结构化、多变量输入的复杂问题。

以 DeepSeek 为代表,其在文献检索、逻辑推理等领域展现出强大的优势。DeepSeek 结合深度学习和自然语言处理技术,能够理解用户提出的开放性查询,以推理能力对海量科研文献进行分析和筛选,同时基于知识图谱精确关联文献间的内容和主题。其智能推荐功能通过深度推断用户潜在需求,提升文献匹配的精准度。此种推理驱动下,DeepSeek 极大地缩短了研究者从检索到决策的数据处理路径,广泛应用于高价值科研和新技术研发场景。

相比之下,指令类大模型(Instruction Models)倾向于接受用户自然语言指令并执行相关任务,强调对用户请求的理解与响应,重点在于自然语言交互能力和指令解释能力。其优势在于高效完成预定义任务,如问答生成、文本补全等,更适合实时互动和广泛用户场景。但因缺乏深度推理能力,其在复杂逻辑判定上的表现较弱。

三、大模型在金融任务中的应用

大模型在金融任务中应用广泛,其能够通过理解上下文、处理海量数据(15.230, -0.52, -3.30%)和生成文本等方式应用于不同场景,如金融推理、情感分析、金融时间序列分析等。伴随近年来大型语言模型迅速发展并在在各种自然语言处理任务中表现出色,金融领域的垂直大型语言模型也呈百花齐放之态。

3.1 金融大模型一览

DeepSeek,探索前沿技术的智能先锋。DeepSeek 作为新一代通用大语言模型,凭借技术创新与成本优势,构筑起核心竞争力。其优势体现在前沿架构的深度优化,借助动态专家网络与自适应计算分配机制,在参数规模较小的情况下,实现高速推理,显著降低硬件部署门槛。DeepSeek 独创三阶段训练体系,即通用预训练、领域增强、人类反馈强化。该体系通过数据蒸馏技术,仅需少量训练资源,便能达到顶尖性能。DeepSeek的技术突破使其具备广泛适用性,能够支持代码生成、多轮对话、知识问答等多种场景任务。在企业级解决方案中,DeepSeek支持千亿token级知识库实时检索,响应延迟控制在500ms以内,可为中小开发者至大型机构提供梯度化 AI 服务,单机日处理交互量可达 200 万次,性价比处于行业领先水平。

通义千问,阿里云智能变革的关键驱动力(8.800, -0.52, -5.58%)通义千问系阿里云自主研发的大语言模型,基于 Transformer 架构搭建,融合开源大语言模型训练方法 Llama,技术根基坚实。经多轮迭代,其在自然语言处理领域能力持续进阶。2025 年1月29日,旗舰版模型 Qwen2.5-Max 发布,预训练数据超 20 万亿 tokens。通义千问功能完备,涵盖文字创作、代码编写、语言翻译、角色扮演对话等基础功能。其特色功能 “百宝袋”,针对创意文案、办公、学习、生活等场景,提供高效解决方案。依托通义大模型,阿里云已开发通义灵码、通义智文等多个行业应用模型,深度赋能多行业,推动产业智能化升级。

豆包,字节跳动的智能创新引擎。作为字节跳动基于云雀模型开发的AI智能体,2024年5月15日正式对外开放服务,企业市场主力模型定价为0.0008元/千Tokens,具备较高的性价比。豆包拥有丰富的模型矩阵,包括通用模型 pro、lite版本,以及多种特色模型如角色扮演、语音识别等。通过对海量文本数据的深度学习,豆包在聊天、写作、英语学习等功能上表现出色,能在科学、技术、历史、文化等多领域快速准确地响应用户需求。

GPT,通用根基上的金融衍生。GPT系列作为通用领域的标志性 LLMs,基于 Transformer 架构,运用自注意力机制和位置嵌入技术,在自然语言处理领域成绩斐然。以 GPT-4为基础开发的Ploutos模型,专注于可解释的股票走势预测。该模型整合多模态数据,通过不同专家视角生成定量策略,并借助创新提示与动态令牌加权方法,显著提升股票预测的准确性与可解释性。

BLOOM 及其金融衍生,多语言与专业化的融合。BLOOM 作为多语言 LLM,拥有 1760亿参数,具备语言多样性和开源优势。基于BLOOM开发的 Bloomberg GPT,拥有500 亿参数,专为金融领域训练,在特定金融任务中表现卓越;XuanYuan 2.0 则面向中国金融市场,采用混合调优策略,在金融咨询和市场分析等领域优势明显。

Llama系列,灵活架构下的金融赋能。自2023年推出以来,Llama系列凭借灵活的模型尺寸和出色的基准测试表现备受关注。其金融变体如 FinMA、Fin-Llama 等,为不同金融任务提供专业支持。例如,InvestLM 基于Llama - 65B和投资相关的数据集,能提供与前沿商业模型相媲美的投资建议。Llama 2 在 Llama 基础上全面改进,催生更多金融变体;Llama 3的发布进一步提升性能和推理能力。

3.2 金融大模型应用场景初探

目前,大语言模型(LLM)正深度融入金融领域。其凭借强大的自然语言处理能力,在多方面发挥关键作用,未来有望重塑金融业务运作模式。

3.2.1 语言任务

文本处理:LLMs 依靠Transformer架构,在金融文本处理上超越传统模型。LLMS能总结提炼复杂文档,处理多语言和特定领域文本。面对PDF格式难题,有转换方法和如 DocLLM 这类模型协助。在命名实体识别中,LLMs 精准识别各类实体,KPI-BERT 系统就是典型应用,还用于XBRL标记等任务。

知识图谱:构建金融关系时,LLMs 可提取信息构建知识图谱,如用于ESG信息分析。文本分类方面,大模型能对公司、行业、文档等分类。BlackRock用其生成公司嵌入进行分类,助力投资决策。

3.2.2 情绪分析

在金融情绪分析中,LLMs能理解复杂语言,处理多模态数据,分析长篇文档,精准把握市场情绪。在社交媒体和新闻分析中,LLMs 挖掘情绪预测股价。在公司披露信息、市场研究报告和政策经济指标分析中也发挥重要作用,辅助投资决策。

3.2.3 金融时间序列分析

预测:LLMs 可直接或结合其他神经网络预测市场走势,利用多模态数据提升效果,但在零样本多模态预测上性能有待提高。

其他任务:在异常检测中,LLMs 能识别异常模式,如基于 LLMs 的多智能体框架可增强检测能力。还用于金融时间序列的分类、数据增强和插补等任务。

四、深度求索, DeepSeek

4.1 全面解析DeepSeek

DeepSeek是一款由深度求索公司开发的人工智能产品,主要聚焦于实现通用人工智能(AGI),其核心产品是基于大规模预训练模型的智能助手,具备自然语言理解、生成、推理和多模态交互等能力。

DeepSeek目前有三种模式:基础模型(V3)、深度思考(R1)和联网搜索。V3为基础模型,快速解答简单问题,不展示思考过程;R1为深度推理模型,拥有671B参数,采用后训练和强化学习方法,擅长多角度分析问题并提供严密推理后的解答;联网搜索基于检索增强生成(RAG)方案,能够补充最新信息,可实现文本生成、自然语言分析、编程与代码等功能,以提高投资研究的效率。

检索增强生成(RAG)是一种将信息检索与文本生成模型相结合的方法,能够有效地执行知识密集型任务。RAG通过检索相关文档并结合上下文生成更可靠的输出,解决了传统语言模型面临的“幻觉”问题。此外,近期的研究显示,RAG在多个基准测试中表现优异,成为增强语言模型输出的可行方案。

相较于目前全球范围内的主流大模型, DeepSeek在性能和成本上展现出显著优势。在相同参数规模下,其推理速度更快,计算资源占用更低,能够以更高效的方式完成复杂任务。同时,通过优化的训练策略和硬件适配,DeepSeek在云计算成本上具有更强的性价比,尤其适合对运营成本敏感的企业级应用场景。这种高效、精准且降本增效的特性,使其在专业领域的竞争力更为突出。进一步来看,DeepSeek优势如下:

创新架构和低训练成本:DeepSeek-V3 是混合专家(MoE)语言模型,有 6710 亿参数,每个 token 激活 370 亿参数。采用创新架构和训练策略,在 14.8 万亿高质量 token 上预训练,经监督微调(SFT)和强化学习(RL)优化,训练成本低且稳定。

高性能架构:基本架构基于 Transformer,采用多头潜在注意力(MLA)和 DeepSeek MoE。MLA 压缩注意力键值对,降低推理时的缓存;DeepSeek MoE 使用细粒度专家并引入无辅助损失负载平衡策略,避免负载平衡对性能的负面影响。同时,采用多 token 预测(MTP)训练目标,提升模型性能。

较少的训练时间和内存使用:在拥有 2048 个 NVIDIA H800 GPU 的集群上训练,使用 HAI-LLM 训练框架,结合多种并行技术和优化策略,支持 FP8 混合精度训练,减少训练时间和 GPU 内存使用。推理部署时,将预填充和解码阶段分离,提高在线服务效率。

基准测试中表现优异:DeepSeek优化训练语料库,增加数学和编程样本比例,扩大语言覆盖范围。设置模型和训练超参数,采用 YaRN 扩展上下文长度,经评估DeepSeek-V3 在多数基准测试中表现优异,超越其他开源模型。

贴合用户偏好:通过监督微调(SFT)和强化学习(RL)使模型符合人类偏好。SFT 使用精心整理的数据集,RL 采用规则和模型两种奖励模型及组相对策略优化(GRPO)方法。经评估,DeepSeek-V3 聊天版本性能优于开源模型,与闭源模型相当。

DeepSeek在性能、效率和成本方面取得显著进展,为AI技术发展提供新方向。性能层面,优化后的推理架构实现了低延迟响应,在响应速度上表现出色;能支持128K tokens 超长上下文的理解与生成,长文本处理能力突出;垂直领域方面,在数学、代码等复杂任务中精准度较高。相比同类模型,DeepSeek资源占用更低、响应更快,推理高效。得益DeepSeek的开源特性,以及低成本、模型轻量化的优势,DeepSeek在近期应用榜单中名列前茅。

4.2 DeepSeek应用场景初探

目前DeepSeek 提供了多种登录方式,具体如下:1)官网及手机 APP 登录:用户可通过DeepSeek的官方网站或手机APP 进行登录操作,以获取相关服务;2)本地部署登录:该方式需满足一定硬件要求。若在普通设备部署,其响应速度较慢,实用性欠佳。3)云端平台接入API:用户可通过第三方云端平台(如硅基流动)接入API来使用DeepSeek。此方式下,多数需使用付费 token,不过其优点在于对本地配置无要求,用户能够随时随地在多个平台进行调用DeepSeek。

聚焦DeepSeek具体应用场景,其在以下领域表现突出:

场景一:信息检索

DeepSeek 的信息检索功能基于联网搜索模式,采用检索增强生成(RAG)方案,能够实时获取最新网络数据。用户只需输入相关问题,DeepSeek 会自动检索并生成答案,提供多角度分析和智能补充,确保信息的准确性和全面性。这一功能广泛适用于市场分析、行业研究和政策解读,极大地支持投资决策和研究工作。

场景二:代码编程

DeepSeek 在提升开发效率和代码质量方面具有显著优势。用户可通过简单描述快速获取相关代码示例,显著缩短查找时间。同时,DeepSeek 提供个性化代码推荐,依据用户历史行为推荐相关代码片段和库,助力快速解决问题。

场景三:逻辑推理

金融投研领域中,DeepSeek逻辑推理功能优势显著,主要体现于多维数据分析及事件推演能力。DeepSeek可整合历史数据与实时市场资讯,依据大模型推导出经济指标与市场走势的因果关系,协助研究员预测关键指标变化对资产价格的潜在影响,进而指导投资决策。其次,DeepSeek 支持情境分析与假设推演,研究人员可设定政策变化、经济冲击等不同情境,以评估其对投资组合的影响,该逻辑推理能力有助于投资者制定更科学的投资策略 。

五、风险提示

1)大模型输出结果具有随机性风险;

2)模型迭代升级、新功能开发可能会导致结论不同;

3)模型结论仅供参考,可能出现错误答案的风险;

4)AI幻觉生成虚构内容、误导内容的风险。

海量资讯、精准解读,尽在新浪财经APP
应用场景
0条评论|0人参与网友评论

APP专享直播

开播时间 | 3-22 09:15
亚洲青年科学家基金项目-探索科技新前沿论坛
开播时间 | 3-22 09:00
2025年未来科学城科创金融大会:胡晓炼、谢平等演讲
开播时间 | 3-21 20:00
蔚来2024年第四季度及全年财务业绩报告电话会议
开播时间 | 3-21 19:00
美团2024年第四季度及全年财务业绩报告电话会议
开播时间 | 3-21 18:00
破题2025“闻风起,顺势动”:黄生、廖骞等演讲
开播时间 | 3-21 16:00
嘉实基金:季末展望,如何做好闲钱理财?
开播时间 | 3-21 16:00
国君资管:股债跷跷板,各类资产怎么看?
开播时间 | 3-21 15:01
对话基金经理|AI如何让投资更聪明?
开播时间 | 3-21 15:00
国投瑞银:追上军工热点 | 国防预算公布,军工怎么看?
开播时间 | 3-21 14:29
2025海信世俱杯新品发布会
开播时间 | 3-22 09:15
亚洲青年科学家基金项目-探索科技新前沿论坛
开播时间 | 3-22 09:00
2025年未来科学城科创金融大会:胡晓炼、谢平等演讲
开播时间 | 3-21 20:00
蔚来2024年第四季度及全年财务业绩报告电话会议
开播时间 | 3-21 19:00
美团2024年第四季度及全年财务业绩报告电话会议
开播时间 | 3-21 18:00
破题2025“闻风起,顺势动”:黄生、廖骞等演讲
开播时间 | 3-21 16:00
嘉实基金:季末展望,如何做好闲钱理财?
开播时间 | 3-21 16:00
国君资管:股债跷跷板,各类资产怎么看?
开播时间 | 3-21 15:01
对话基金经理|AI如何让投资更聪明?
开播时间 | 3-21 15:00
国投瑞银:追上军工热点 | 国防预算公布,军工怎么看?
开播时间 | 3-21 14:29
2025海信世俱杯新品发布会
上一页下一页
1/10

热门推荐

余承东回应华为Pura X价格争议:用了新技术,成本非常高 收起
余承东回应华为Pura X价格争议:用了新技术,成本非常高

余承东回应华为Pura X价格争议:用了新技术,成本非常高

  • 2025年03月21日
  • 10:36
  • APP专享
  • 扒圈小记
  • 44,786
APP专享
取代“中国制造”?印度大计划被爆“夭折”

取代“中国制造”?印度大计划被爆“夭折”

  • 2025年03月22日
  • 01:50
  • APP专享
  • 扒圈小记
  • 33,367
APP专享
男子相亲谎称不育专骗单亲妈妈,12名女子被骗超295万

男子相亲谎称不育专骗单亲妈妈,12名女子被骗超295万

  • 2025年03月21日
  • 05:54
  • APP专享
  • 北京时间
  • 6,470
APP专享
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

股市直播

  • 图文直播间
  • 视频直播间
更多>
股票简称 最新价 涨跌幅
以下为热门股票
三峡能源 4.26 -0.47%
京东方A 4.25 -1.39%
TCL科技 4.56 -2.56%
中远海控 14.26 -1.31%
格力电器 43.74 +2.41%
广告

7X24小时

  • 02-28 汉朔科技 301275 --
  • 02-28 永杰新材 603271 --
  • 02-21 汇通控股 603409 24.18
  • 02-20 毓恬冠佳 301173 28.33
  • 02-18 常友科技 301557 28.88
  • 广告
    新浪首页 语音播报 相关新闻 返回顶部
    关闭
    关闭