选股确率高达60%？大模型与财务报表的双向奔赴_新浪财经

来源：量化投资与机器学习

这几天一篇论文被推到了风口浪尖（论文下载见文末）：

这篇论文的研究结论表明：即使在没有叙述上下文或特定行业信息的情况下，LLM在预测收益变化方面的表现超过了人类分析师。并且LLM的预测准确性与训练有素的、最先进的机器学习（ML）模型相当。

当然，LLM和人类分析师是互补的，而不是替代关系。LLM在分析数字数据时表现出色，而人类分析师在需要更广泛背景信息的情况下更有价值。

方法论和数据

1、数据收集：研究者从Compustat数据库收集了1968年至2021年的年度财务数据。

2、数据标准化：为了确保模型能够一致地处理数据，研究者将收集到的财务数据标准化。这包括使用Compustat的平衡公式来构建标准化的资产负债表和损益表。

3、数据匿名化：为了防止模型通过识别特定公司或年份来产生预测偏差，研究者从财务报表中去除了所有可能识别公司身份的信息，包括公司名称和具体的年份。取而代之的是，他们使用了相对年份标签，例如t、t-1和t-2。

4、构建财务报表：研究者根据标准化和匿名化的规则重建了每个公司年份的资产负债表和损益表。

5、设计Prompts：为了指导LLM进行财务分析，研究者设计了两种类型的提示。第一种是“简单提示”，它仅指示模型分析财务报表并预测未来收益的方向。第二种是“链条思考（Chain-of-Thought, CoT）提示”，它更为复杂，要求模型模拟人类分析师的分析过程，包括识别财务报表项目中的显著变化、计算关键财务比率、提供比率的经济解释，并最终预测下一时期的收益是增加还是减少。