• AI对话
  • AI绘画
  • AI办公
  • AI语音
  • AI视频
  • 智能体
  • AI最新资讯
  • 协会动态
  • 图片广场
  • 角色广场
  • AI教育
  • AI商城

AI门户

logo
      首页
    • AI工具
    • AI资讯
    • AI社区
    • AI商业
    • APP
登录

⾦融应⽤⼤型语⾔模型综述:进 展、 前景与挑战

作者 · AI门户来源 · 百度
浏览 · 184次2024-11-06

⾦融应⽤⼤型语⾔模型综述:进

展、 前景与挑战

摘要

大型语言模型 (LLM) 的最新进展为金融领域的机器学习应用开辟了新的机

会。这些模型在理解上下文、处理大量数据和生成人类偏好的内容方面表现出

了卓越的能力。在本次调查中,我们探讨了 LLM 在各种金融任务中的应用,

重点关注它们改变传统实践和推动创新的潜力。我们讨论了 LLM 在金融环境

中的进展和优势,分析了它们的先进技术以及在上下文理解、迁移学习灵活

性、复杂情绪检测等方面的潜在能力。然后,我们重点介绍了本次调查,将现

有文献分类为关键应用领域,包括语言任务、情绪分析、金融时间序列、金融

推理、基于代理的建模和其他应用。对于每个应用领域,我们深入研究了特定

的方法,例如文本分析、基于知识的分析、预测、数据增强、规划、决策支持

和模拟。此外,我们还提供了与主流应用相关的数据集、模型资产和有用代码

的综合集合,作为研究人员和从业人员的资源。最后,我们概述了未来研究的

挑战和机遇,特别强调了该领域的一些独特方面。我们希望我们的工作能够促

进法学硕士在金融领域的采用和进一步发展。

图 1:我们的论文结构概述,重点关注模型、应用、数据、代码和基准以及挑战和机遇。1 介绍

金融领域一直具有复杂性、不确定性和快速发展的特点。随着技术的进步,先进

的计算模型在金融领域的应用获得了显著的发展势头。1]。在这些进步中,大型

语言模型 (LLM) 已成为一种强大的工具,在理解上下文、处理大量数据和生成

类似人类的文本方面表现出非凡的能力。LLM 在金融领域的应用有望改变传统

做法、推动创新并在各种金融任务中释放新的机会。

LLM(例如 GPT 系列、BERT 及其金融专用变体,如 FinBERT)在自然语言处

理 (NLP) 任务中表现出色。这些模型利用复杂的算法和对大量数据集的大量预

训练来实现高级上下文理解、自定义功能和实时分析的可扩展性。它们能够检测

复杂的情绪状态并提供准确的解释,这使得它们在金融领域特别有价值,因为了

解市场情绪和做出明智的决策至关重要。

近年来,金融领域对 LLM 在各种应用中的应用兴趣日益浓厚。这些应用不仅重

塑了金融分析的格局,还为市场行为和经济活动提供了新的视角。例如,在语言

任务中,LLM 擅长从大量财务文件中总结和提取关键信息,从而将复杂的财务

叙述精简为简洁的摘要,并实现更高效的信息处理。情绪分析作为金融领域最重

要的应用之一,几十年来一直被广泛探索。LLM 的进步使其成为量化金融新闻、

社交媒体和公司披露中的市场情绪的关键,从而提供影响市场走势和投资决策的

关键见解。此外,LLM 在金融时间序列分析中展现出了潜在的能力,包括预测

市场趋势、检测异常和对财务数据进行分类,尽管其有效性仍有争议。这些模型

旨在通过利用其深度学习架构来捕获金融数据集中复杂的时间依赖性和模式,从

而提高预测准确性和稳健性。 LLM 明显超越以往的深度学习方法的最有前景的

研究领域之一是其推理能力,这使它们不仅能够拟合数据,还能模拟类似于人类

认知的推理过程。在金融推理中,LLM 通过处理和综合来自不同来源的大量财

务数据来支持财务规划、生成投资建议和协助决策。利用其模仿人类决策过程的

能力,LLM 进一步应用于基于代理的建模。此应用将 LLM 的推理能力扩展到代

理与其环境、市场和人类之间的交互,从而能够模拟市场行为、经济活动和金融

生态系统的动态。

表一:我们的调查与相关调查的比较。圆圈表示已涵盖但缺乏详尽细节的区域。

民意调查

金融大语言模型 基准 应用 挑战

尽管取得了令人鼓舞的进展,但 LLM 在金融领域的应用也带来了一些挑战,例

如回测中的前瞻偏差、围绕机器人生成内容的法律问题、数据污染、信号衰减、

推理速度、成本、不确定性估计、维度考虑、可解释性、法律责任、安全性和隐

私。解决这些挑战对于确保 LLM 在金融应用中合乎道德和有效部署至关重要。

相关工作:最近,有几项调查探讨了 LLM 在金融领域的应用。例如,Lee 等人。

[2]从模型角度对金融大语言模型进行了概述。李等人。[3]回顾了当前在金融领

域采用大语言模型的方法,并提出了一个决策框架来指导这些方法的采用。Dong

等人。

4]对 ChatGPT 以及会计和金融领域的相关大语言模型进行范围界定审查。

赵等人。[5]专注于将大语言模型 (LLM) 与各种金融任务的结合。

尽管有这些贡献,但现有的调查往往缺乏对金融所面临的实际挑战和机遇的深入

研究,或者主要关注技术方面,而没有解决对金融决策和行业实践的更广泛影响。

本调查旨在通过不仅回顾最新技术,而且还对专门的模型、有用的基准、创新应

用和基本挑战进行详细分析来填补这些空白。我们的工作通过提供由金融中的实

际应用驱动的整体视图而具有独特的优势,从而为研究人员和从业者提供宝贵的

见解。

贡献:我们的主要贡献包括:

  • 金融应用和实践见解的整体视角。我们的调查通过对大语言模型在金融领

域的应用进行全面考察,弥合了学术研究与实际实施之间的差距。这种整

体视角确保了研究人员和从业人员的相关性,突出了大语言模型在各种金

融任务中的变革潜力。

  • 全面涵盖模型、数据和基准。我们研究金融应用的特定 LLM,分析其架

构、预训练方法和定制。我们还分析数据集和基准,提供宝贵的资源集合。

  • 新的挑战和机遇。我们的调查探讨了将大语言模型应用于金融的独特挑战,

例如前瞻性偏差、法律问题、数据污染和可解释性。我们探索潜在的解决

方案和未来的研究方向,为金融领域的进一步发展奠定基础。

论文组织:本文结构如下:在第 2 部分中,我们讨论了专门为金融应用设计或微

调的各种 LLM。第 3 部分对各种应用领域进行了全面调查,包括语言任务、情

绪分析、金融时间序列分析、金融推理和基于代理的建模。第 4 部分深入探讨了

可用于金融 LLM 研究的数据、代码和基准。最后,第 5 部分探讨了在金融领域

部署 LLM 所面临的挑战和机遇。本调查旨在全面概述 LLM 在金融领域的应用

现状,重点介绍进展、前景和挑战。通过对当前形势进行详细调查,我们希望它

能够促进 LLM 在金融领域的采用和进一步发展,为创新解决方案和增强决策流

程铺平道路。2 模型

2.1 模型集合

大语言模型在多个领域都表现出了卓越的能力[6],[7],[8]。虽然 GPT 系列、

Llama 系列和 BERT 等通用领域 LLM 在各种 NLP 任务上表现出色,但人们

对开发金融领域特定 LLM 的兴趣也日益浓厚。这些专门的模型经过大量金融数

据的训练,使它们能够更好地理解和生成与金融、经济和商业相关的内容。在本

节中,我们将介绍几个著名的金融领域特定 LLM,讨论它们的优势、局限性以

及在下游金融任务中的潜在应用。

GPT 系列:最著名的通用领域 LLM 之一是 OpenAI 开发的 GPT(生成式预训

练转换器)系列[9],[10],[11],[12]。基于 transformer 架构的 GPT 模型利

用自注意力机制和位置嵌入来捕获文本中的长距离依赖关系。最近,Ploutos [十

三]是一种基于 GPT-4 衍生的新型金融 LLM 框架,已被提出用于可解释的股票

走势预测。Ploutos 由两个主要组件组成:PloutosGen 和 PloutosGPT。

PloutosGen 通过多元化专家库(包括情绪、技术和人工分析专家)整合多模态数

据,从不同角度生成定量策略,解决了融合文本和数字信息的挑战。另一方面,

PloutosGPT 通过使用后视镜提示(利用历史股票数据和专家分析来指导模型)

和动态 token 权重来生成准确且可解释的股票预测原理,解决了传统方法缺乏

清晰度的问题。虽然 Ploutos 表现出了增强的预测准确性和可解释性,但它受到

潜在专家选择偏差、计算复杂性和有限数据类型的限制。未来的研究可能集中在

优化效率、扩大数据种类和减轻偏见上,以进

图 2:2019 年金融专业大型语言模型 (LLM) 概览,按基础模型类型和其他类型分类。

BERT:2018 年,BERT(来自 Transformer 的双向编码器表示)[14]凭借其能

够学习上下文表示的深度双向架构彻底改变了 NLP 领域。这一突破导致了多个

领域特定变体的开发,特别是在金融领域。在 BERT 的基础上,FinBERT-19 [15]是通过不断对 BERT 进行金融文本预训练来增强其情感分析能力而开发的。次

年,FinBERT-20 [16]通过从头开始进行特定领域的预训练,进一步发展了这种

方法,专注于金融通信并利用大规模金融语料库。 2021 年,FinBERT-21 [17]

引入了一种混合领域预训练策略,利用通用语料库(Wikipedia 和 BooksCorpus)

和金融领域语料库(FinancialWeb、YahooFinance 和 RedditFinanceQA)。通过

同时在通用和金融领域语料库上进行训练,FinBERT-21 旨在捕获与金融文本挖

掘相关的更广泛的语言知识和语义信息。这些 FinBERT 模型已在各种金融下游

任务中证明了其有效性,例如情绪分析、命名实体识别、问答和金融领域内的文

本分类。除了上面提到的 Fin-BERT 模型外,RoBERTa [18]于 2019 年推出,是

BERT 的另一个变体。Mengzi -BERTbase-fin [19],使用 20GB 的金融新闻和研

究报告进行训练,是 RoBERTa 专为金融应用而设计的专用版本。

T5:2019 年,谷歌推出了 Text-to-Text Transfer Transformer(T5)[20],一个

将每个文本处理任务视为“文本到文本”问题的统一框架。该模型采用编码器-解码

器架构,并使用称为“跨度损坏”的自监督学习目标进行预训练。这涉及随机屏蔽

输入序列中连续的文本跨度并训练模型以重建原始文本。在此基础上,BBT(Big

Bang Transformer)-FinT5 [21]是专门为中国金融行业开发的。该模型采用了

知识增强型预训练方法,建立在 BBT-FinCorpurs 之上——这是一个包含各种来

源的大型金融语料库,包括公司报告、分析师报告、社交媒体和金融新闻。BBT

FinT5 受益于 T5 的文本到文本框架,使其能够处理金融领域内的语言理解和

生成任务。然而,作为一个领域特定模型,它在金融以外的一般 NLP 任务上的

表现可能有限。BBT-FinT5 可以针对各种金融应用进行微调,包括新闻分类、摘

要、关系提取、情绪分析和基于事件的问答。

ELECTRA:2020 年,ELECTRA [22]引入了一种用于预训练语言模型的创新生成

器-鉴别器框架。该模型通过训练鉴别器来区分真实生成的标记和合成生成的标

记,从而提高效率。在此基础上,研究人员开发了 FLANG [23],这是针对金融领

域量身定制的 ELECTRA 的专门变体。FLANG 集成了选择性标记屏蔽和跨度边

界目标等特定调整,以有效处理金融语言的复杂性。虽然 FLANG 在处理金融术

语方面表现出色,并在金融文件中的情感分析和实体识别等任务上表现出色,但

其专业化可能会限制其在非金融环境中的有效性,而无需进一步微调。尽管存在

这种限制,但 FLANG 已在各种下游金融任务中证明了其价值。它可以精确分析

市场报告、准确分类金融头条新闻以及可靠地识别关键金融实体。

BLOOM:2022 年,BLOOM [24]是一个具有 1760 亿个参数的基础多语言 LLM。

它在一个包含 46 种自然语言和 13 种编程语言的庞大文本语料库上进行了预

训练。BLOOM 因其多样性和可访问性而著称,它是一个支持多种语言的开源模

型。从 BLOOM 开始,已经创建了专注于金融应用的专门版本,包括

BloombergGPT [6]和轩辕 2.0 [二十五]。BloombergGPT 拥有 500 亿个参数,是

针对金融领域设计的,通过对彭博金融数据源进行训练,该模型在特定金融任务

上表现出色,同时保持了整体竞争力。轩辕 2.0 是针对中国金融市场打造的大型

开源中文金融聊天模型,它提出了一种新颖的混合调优策略,结合了通用数据和

金融特定数据,使模型在保留通用语言能力的同时,还能出色地完成金融咨询、

市场分析等特定领域任务。该策略降低了灾难性地遗忘先前知识的可能性,并提

高了金融相关任务的准确性。Llama 系列:Llama [二十六]是 2023 年推出的 LLM,具有灵活性,模型大小从

7B 到 65B 参数不等。Llama 在公开可用的数据集上进行训练,以提高透明度,

尽管规模较小,但在大多数基准测试中,它的表现都优于 GPT-3 等大型模型。

它的金融变体包括 FinMA [二十七],鳍羊驼 [二十八]、聚宝盆 – 中文 [二十九],

Instruct-FinGPT [三十]和 InvestLM [31],为各类金融任务提供专业化能力。其

中,InvestLM 基于 LLaMA-65B 和多样化投资相关数据集,提供可与前沿商业模

型媲美的投资建议。Llama 2 [三十二]随后发布,与 Llama 相比,它进行了多项

增强,包括预训练语料库增加了 40%,上下文长度增加了一倍,并采用了分组

查询注意机制以提高推理可扩展性。它有金融变体,例如 FinGPT [33],

FinLlama [三十四]和 GreedLlama [三十五]。具体来说,FinGPT 是一个开源模

型,专注于为开发金融 LLM 提供可访问且透明的资源。尽管与 BloombergGPT

相比,FinGPT 的训练数据相对较少,但它声称为金融语言建模提供了一种更易

于访问、更灵活且更具成本效益的解决方案。2024 年 4 月,Meta 推出了 Llama

3 [三十六],具有 8B 和 70B 参数模型,展示了最先进的性能和改进的推理能

力,标志着它们成为迄今为止最强大的公开可用 LLM。LLM 社区显然很兴奋,

我们期待更多用于金融 LLM 模型的 Llama 3 变体很快会出现。

除了上面提到的模型之外,还有其他金融领域特定的 LLM,例如 FinTral [三十

七],由 Mistral 7B 驱动[三十八] ; SilverSight [三十九],基于 Qwen 1.5-7B 聊天

模型[40] ; DISC-金融大语言模型[41]、使用百川-13B [四十二]作为骨干;

CFLLM [43],基于 InternLM-7B [四十四] ; FinVIS-GPT [四十五]是基于 LLaVA

的多模态金融图表分析大语言模型[四十六]。这些领域特定的 LLM 利用大量金

融数据集和先进的训练技术,提供比通用领域模型更准确、更具情境感知的金融

分析。随着该领域研究的不断进展,我们期待开发出更加复杂的金融 LLM,这

些 LLM 可以改变金融行业的各个领域,包括投资策略、风险管理、预测和客户

服务。然而,必须认识到这些模型的局限性和潜在偏差,并谨慎地将它们与人类

的专业知识和判断力结合起来使用。

2.2 零样本与微调

零样本学习和微调是 LLM 应用中两种不同的自适应方法。零样本学习(或少样

本学习)是指模型能够根据其预先存在的知识和泛化能力,正确预测或执行尚未

明确训练过的任务。另一方面,微调涉及针对特定数据集或特定任务调整预先训

练的模型,以提高其在该任务上的准确性和性能[3]。

当特定领域的准确性至关重要、需要适应实时变化,或者定制和隐私是关键考虑

因素时,微调是首选。在实践中,整合与金融相关的文本数据是微调 LLM 的常

用方法。Araci [15]开发了 FinBERT,这是 BERT 语言模型的定制版本,通过对

包括新闻、文章和推文在内的综合金融数据集进行扩展预训练以及战略微调方法

实现。FinBERT 在金融相关文本分析中树立了新的标杆,超越了该领域早期的深

度学习方法。

已经提出了几种技术来提高微调效率。指令调整[四十七]是一种语言模型的微调

方法,通过对模型进行特定的指令训练,不仅可以提高目标任务的性能,还可以增强模型的零样本和小样本学习能力,使其在各种金融应用和模型中广受欢迎。

张等人。[三十]提出了一种指令调整的 FinGPT 模型,通过采用指令调整来增强

LLM 的金融情绪分析能力,即将一小部分监督金融情绪数据转化为指令数据,

从而提高模型的数值敏感性和上下文理解能力。此外,Zhang 等人。[四十八]将

指令调整的 LLM 与检索增强模块集成,这是一种通过从外部来源检索到的相关

信息补充语言模型输入来增强语言模型的技术,通过提供更丰富的上下文来增强

模型的预测性能。除了指令调整之外,人们还应用了低秩自适应 (LoRA) [49]或

量化大语言模型[50],[51]以便更有效地适应财务任务,例如 FinGPT [三十]、

FinGPT-HPC [52]和基于 Llama 的模型[53]。

另一种流行的方法涉及考虑较小的模型,因为在当今的机器学习领域,能源效率

和模型的轻量级特性至关重要。54],[55],[56]。罗德里格斯·插入特等人。 [57]

证明较小的 LLM 可以针对财务文件和说明进行有效微调,以实现与较大模型相

当或更优异的性能。邓等人。[58]介绍了一个利用 LLM 对 Reddit 数据进行半

监督金融情绪分析的案例研究,其中 LLM 通过上下文学习和思路链推理生成弱

情绪标签,然后用于训练较小的模型以供生产使用,以最少的人工注释实现具有

竞争力的性能。

虽然预训练和微调使这些模型能够适应各种应用的特定语言特征和风格,但当标

记数据有限、快速部署至关重要或优先考虑模块化开发和可解释性时,零样本学

习是首选。LLM 的零样本和少样本能力凸显了它们的效率,因为它允许直接应

用,而无需进行大量特定于数据集的训练。这种效率归功于从训练 LLM 的大量

数据集中进行的迁移学习,以及它们在信息处理过程中产生新见解或解决意外问

题的能力[59]。这些特征大大拓宽了它们在各个领域的实用性,而无需进一步训

练。例如,Steinert 和 Altmann [60]探索 GPT-4 使用微博消息预测 2017 年苹

果和特斯拉同日股价走势的零样本能力,并通过将其性能与 BERT 进行比较,

强调了及时工程对于从 GPT-4 中提取复杂情绪以用于金融应用的重要性。

2.3 为什么要应⽤⾦融⼤语⾔模型?

LLM 与金融分析的结合代表了金融领域数据驱动决策方式的革命性转变。这些

模型的独特功能由先进的机器学习技术驱动,这些技术以前所未有的规模和复杂

性解释和处理自然语言。在这里,我们深入探讨了在金融应用中利用 LLM 的核

心原因,强调了一般和特定优势。

高级上下文理解:LLM 以其深刻的上下文理解能力而著称。这包括对金融术语、

行话和精炼表达的全面理解。这种高级上下文理解显著提高了情绪分析的准确性,

这是处理金融文件和新闻文章中复杂且通常含糊不清的语言时的一个关键方面。

迁移学习灵活性:LLM 最初在大量互联网文本语料库上进行预训练,涵盖广泛

的主题和语言。这种预训练使 LLM 具备广泛的语言理解能力,然后可以针对特

定的金融任务进行微调。迁移学习的这种灵活性减少了对大型领域特定数据集的

依赖,从而允许使用最少的金融领域特定训练数据有效地适应新任务。实时分析的可扩展性:金融市场的快节奏性质要求能够提供及时见解的工具。

LLM 擅长快速处理大量文本,实现实时推理和情绪分析。此功能可确保金融决

策者能够从新闻文章、市场信息、报告和社交媒体中获得即时见解,从而促进更

明智和及时的决策。

多模态性: LLM 的多模态功能将其应用扩展到文本之外,包括其他数据形式,

如图像、音频和结构化数据[61],[62]。在金融领域,这对于整合各种数据源特

别有用,例如来自新闻文章的文本、来自财务报表的数字数据和来自市场图表的

视觉数据。例如,将新闻的文本分析与股票价格变动的视觉分析相结合,可以更

全面地了解市场趋势和投资者情绪。不同数据类型的整合增强了财务分析的稳健

性和深度。

可解释性:虽然深度学习模型通常被视为“黑匣子”,但 LLM 生成类似人类输出

的能力为可解释性打开了大门。这一特性有助于提供结果及其基本解释,从而增

强 LLM 中推理过程的可理解性,并提高其金融应用的信任度和透明度。

定制化: LLM 表现出相当大的适应性,可以定制以适应特定的金融工具或市场

条件。通过整合特定领域的数据和参数,可以训练 LLM 专注于金融市场的特定

方面,例如债券的风险评估或股票市场的趋势预测。这种方法增强了大语言模型

的分析能力,使他们能够针对不同金融环境的复杂性产生精细的见解。

3 应⽤

3.1 语⾔任务

3.1.1 ⽂本⼯作

许多早期的模型,例如基于循环神经网络 (RNN) 的模型,特别是长短期记忆

(LSTM),已经展现出对文本序列实现一定程度的语言理解和执行文本工作的能

力。63]。然而,由于这些模型的架构限制,它们在处理长期依赖关系方面遇到

了困难。具体来说,它们在维护长文本序列的上下文、理解复杂表达式、处理大

型数据集和有效处理非结构化数据方面遇到了挑战[63],[64]。这种局限性在金

融领域尤其明显,因为金融领域的文件量巨大,对准确、简洁的摘要的需求至关

重要[65]。

另一方面,利用 Transformer 模型架构的 LLM 显著提升了该领域的能力。

Transformer 架构以其创新的自注意力机制为特点,使 LLM 能够根据经过训练

的海量数据集来处理、理解和生成文本[66],[67]。这一突破有助于克服早期模

型面临的挑战。通过有效地管理大量文本的长期依赖关系和上下文信息,LLM 可

以将复杂的财务叙述精简为简洁的摘要并提取相关信息[66],[67]。此过程保留

了必要的见解,并实现了更高效的信息处理。总结和提取: 最近的研究有效地利用了 LLM 来总结和提取财务文件信息[68],

[69],[70]。鉴于这些金融文件通常很长,可能会超出许多大语言模型的标记限

制,各种研究都通过将长文档划分为较短的片段来引入框架,或利用特定模型来

解决处理大量金融文本的挑战[71],[72] . 最近,Yepes 等人[73]提出了一种扩

展的方法来对检索增强生成 (RAG) 的文档进行分块,即使用结构元素而不是段

落,从而改进了块大小确定,而无需进行调整。此外,一些论文建议将长篇报告

分为十个不同的部分,例如管理层的讨论和分析、财务重点和业务概述,以简化

摘要流程[74],[75] . 同样地,Khanna 等人[76]利用 Longformer-Encoder

Decoder (LED) 模型,这是 Beltagy 等人首次提出的变压器架构。[77]采用了可

根据序列长度扩展的自注意力机制,适合

图

3:说明金融领域的各种语言任务。

除了处理较长的文档外,研究还扩展到多语言和特定领域的挑战。这包括总结多

种语言的财务文件[78];定制语言模型以应对日语金融术语的适应挑战[79];自

动化加密货币领域文本摘要模型的微调过程,无需人工注释[80];采用多任务学

习策略对金融事件进行分类、检测和总结[81];应对确保准确性和减少财务信息

提取错误的挑战[82];从年报中提取信息以增强股票投资策略[83]。管理多样化的文档结构: 尽管 LLM 在处理文本财务数据方面非常有效,但它

们在处理包含图像、图表和表格的 PDF 文档格式时经常会遇到挑战。这一挑战

可能源于它们主要基于文本的性质,很难解释复杂的空间布局,而这对于理解此

类多模式文档至关重要[84]。解决这个问题的一个简单方法是将 PDF 文件转换

为机器可读的纯文本。例如,在 Yue 等人提出的自动财务信息提取 (AFIE) 框架

中。[85],表格使用 PLAIN 序列化转换为文本。此方法分别使用空格和换行符

来分隔单元格和行。这有效地将表格数据与常规段落集成在一起,以便 LLM 统

一处理。

然而,这种转换过程可能会改变文档的空间布局,并可能导致图表或表格中嵌入

的关键信息丢失。为了解决这个问题,摩根大通的团队开发了 DocLLM [86],一

种专为多模态文档理解而设计的布局感知生成语言模型。DocLMM 利用边界框

信息来理解文档内元素的空间排列。它通过修改 transformer 中的注意力机制

来集中于文本和空间模态之间的交叉对齐,从而增强了文档理解。

名称实体识别:名称实体识别 (NER) 是信息提取的子任务,在从各种金融来源

中提取有意义的信息方面起着至关重要的作用[87],[88]。在金融领域,它用于

从新闻文章、财务报告和市场摘要中提取特定实体,例如公司名称、金融术语、

股票代码、财务指标、货币价值[89]。这些信息对于金融下游任务至关重要,例

如行业分类、情绪分析、信用评分、欺诈检测和监管合规报告[90]。

传统上,NER 是通过基于规则的方法、机器学习技术或深度学习技术来实现的。

91]。基于规则的方法依赖于手工制定的语言和语法规则。它们为明确定义的模

式提供了高精度,但可扩展性有限[87]。机器学习技术包括监督方法和无监督方

法。监督方法利用一整套工程化特征,例如单词级特征和列表查找,以及机器学

习算法,例如隐马尔可夫模型[92]、决策树[93]和支持向量机[94],用于识别和

分类文本中的实体。无监督学习方法通过采用聚类、利用词汇资源和模式以及分

析语料库统计数据来提取和分类命名实体[91]。虽然机器学习提供了灵活性,可

以处理各种数据类型,但它在监督学习中严重依赖于标记数据的可用性,而在无

监督学习中可能缺乏可解释性[87]。深度学习方法利用双向长短期记忆 (BiLSTM)

网络、基于自注意力的转换器和条件随机场 (CRF) 等高级架构进行标签解码,

以有效地从大型数据集中学习和表示单词和字符级特征。这些方法通过捕获文本

中的复杂模式和长程依赖关系,显着提高了模型性能[87]。

随着深度学习方法的出现,LLM 在金融领域的 NER 中得到越来越广泛的应用。

95],

[

96]。大语言模型能够利用大量预先训练过的知识和复杂的语言理解能力,

显著提高复杂金融文本中实体识别的准确性和效率。[95] . 最近,Hillebrand 等

人[97]提出了 KPI-BERT,这是一种新系统,它利用先进的 NER 和关系提取 (RE)

技术来识别和连接德国财务文件中的关键绩效指标 (KPI),例如“收入”或“利息支

出”。该系统依赖于基于 BERT 的端到端可训练架构。它将 RNN 与条件标签掩

码相结合,以进行顺序实体标记,然后进行关系分类。进一步的研究利用 LLM

进行 NER,以提高 XBRL(扩展业务报告语言)标记的效率和准确性[98];确定

类似的同行公司[99] ; 检测负面新闻信息的关键实体[100];提取实体的相关短

语[101]。尽管 LLM 表现出了出色的泛化能力,但它们有时需要很高的训练和推理成本,

尤其是在处理较长的财务文档时。为了解决这些问题,Zhou 等人。[102]提出了

UniversalNER,该模型采用有针对性的蒸馏和以任务为中心的教学调整来为开放

式 NER 训练具有成本效益的学生模型。这种方法不仅减轻了计算负担,而且在

没有直接监督的情况下实现了显著的 NER 准确性。

3.1.2 基于知识的分析

在金融文本分析中,总结和提取文档中的关键信息对于快速理解和处理冗长复杂

文本中的重要数据至关重要。103]。提取相关信息后,下一步是利用这些信息解

决下游财务任务。本节将介绍此应用程序的两个主要活动:构建财务关系和文本

分类。这些工作对于利用提取的信息来增强金融部门的决策和分析过程至关重要。

财务关系构建:构建财务关系,特别是通过使用知识图谱,代表了一种强大的方

法,可以组织和理解从广泛而复杂的财务数据集中提取的实体及其相互关系。

[104]。知识图谱由实体(对象、事件、人等)、这些实体的属性以及将它们联系

在一起的关系相互关联的描述结构组成。该框架提供了一种结构化的方式来表示

数据中的关系,并可以从中得出复杂的分析[105],[106]。

在识别和提取实体(例如公司、个人、金融工具、事件等)以及这些实体之间的

关系(例如所有权、交易、法律纠纷等)后,可以将这些信息系统地组织成图形

格式以供进一步构建。在知识图谱中,实体表示为节点,关系表示为连接这些节

点的边。这种结构提供了一种可视化和可编程的方法来探索和理解金融生态系统

中不同实体之间的联系。通过知识图谱的构建,金融分析师和系统可以采用图形

分析和机器学习算法来发现见解、识别模式并预测未来事件。107]。

大语言模型 (LLM) 的最新进展促使研究人员探索利用大语言模型提取的信息

构建和分析金融领域知识图谱的潜力。108],[109],[110] . 值得注意的是,

Trajanoska 等人[108]利用 LLM 从可持续发展报告中提取结构化的环境、社会

和治理 (ESG) 信息,使用由节点-边缘-节点组成的三元组格式,生成知识图谱,

以便更深入地分析和理解企业可持续发展实践。同样,Cheng 等人。[111]开发

语义实体交互模块。该模块将语言模型与条件随机场 (CRF) 层相结合,以理解

文本中实体与其语义上下文之间的交互。它会自动从经纪研究报告中构建金融知

识图谱,而无需明确的金融知识或广泛的手动规则。

此外,金融研究分析师在研究复杂金融主题时,经常面临识别关键文件、关键实

体和重要事件的挑战。Mackie 和 Dalton [112]通过开发自动化方法从文档和实

体中创建详细的、特定于查询的知识图来解决这些问题。

如上所述,知识图谱已证明其在信息检索中的实用性。此领域的一个特殊情况是

将自然语言 (NL) 转换为图形查询语言 (GQL)。此过程通过利用知识图谱中的关

系数据增强了查询体验,比传统的文本到 SQL 方法更具优势。然而,这种方法

面临着将 NL 准确映射到 GQL 语法的复杂性以及缺乏特定领域示例的挑战,因

此很难对 LLM 进行微调以与专业领域的图形数据库精确对齐[106] . 为了解决

这个问题,Liang 等人。[113]开发了一个管道,该管道使用 LLM 从没有标记数据的金融图形数据库中生成 NL-GQL 对。此过程涉及使用 ChatGPT 创建模板对

并通过自学方法对其进行细化。随后,使用 LoRA 技术对这些对进行 LLM 微调,

以使模型与图形数据库中包含的特定知识保持一致。

知识图谱还可以用来显著增强问答系统。Wang 等人。[114]介绍了一种用于多文

档问答 (MD-QA) 的创新知识图谱提示 (KGP)。他们的方法从多个文档构建知识

图谱,突出显示段落或文档结构之间的语义或词汇关系。然后,基于 LLM 的图

遍历代理使用此知识图谱收集上下文相关信息,从而提高 LLM 回答问题的准确

性

知识图谱的另一个有益方面是,它们能够通过使用 LLM 随着时间的推移而不断

丰富。115]提出了 FinDKG,这是一种用于金融领域的动态知识图谱,其中 LLM

被使用。FinDKG 在其结构中加入了时间层,使其能够反映和适应金融市场、经

济指标和主题趋势的变化。这种动态方法为主题投资提供了宝贵的见解,使人们

能够识别和利用长期行业变化和经济趋势进行战略投资决策。

还存在其他使用 LLM 的财务关系提取研究,尽管不一定用于知识图谱构建

[116],[117],[118],[119] .Ghosh 等人[120]提出了一次屏蔽一个实体 (MOAT)

框架,该框架一次屏蔽一个实体,使用领域特定语言模型 (SEC-BERT) 提取上下

文嵌入,并将这些嵌入与其他特征相结合,以训练神经网络,以准确对金融实体

之间的关系进行分类。同样,Rajpoot 和 Parikh [121]使用 GPT 模型进行上下

文学习,利用无需学习的密集检索器(带有 OpenAI 嵌入的 KNN)和基于学习

的检索器,前者依赖于嵌入的相似性来查找最相关的示例,后者经过训练,通过

估计给定输入和候选训练示例作为提示的输出概率,为每个测试示例选择训练集

中最相似的示例。Wan 等人专注于多类型中国金融事件关系提取。[122]提出了

CFERE 框架,该框架使用核心动词链进行事件识别,构建句法语义依存分析图

将事件组合成对,并使用事件核心嵌入层增强 BERT 以捕获语义含义。这些研

究表明了 LLM 和创新方法在推进金融关系提取方面的潜力,最终有助于提高利

用金融信息的研究价值并帮助投资者做出更好的投资决策。

文本分类:文本分类在组织和理解金融领域内大量非结构化数据方面起着至关重

要的作用。此分类任务可以进一步分为几个子任务,例如行业/公司分类和文档

/主题分类。通过有效地对这些信息进行分类和组织,企业和研究人员可以提取

有价值的见解并做出明智的决策。结合建立财务关系,利用这些分类技术对于利

用提取的信息来增强金融部门的决策和分析过程至关重要。

公司或行业分类涉及根据业务活动和市场表现等共同特征将公司分为不同的类

别,目的是创建连贯且有差异化的群体。识别相似的公司概况是金融领域的一项

基本任务,其应用范围涵盖投资组合构建、证券定价和金融风险归因。传统上,

金融分析师依靠行业分类系统,例如全球行业分类系统 (GICS)、标准行业分类

(SIC)、北美行业分类系统 (NAICS) 和 Fama French (FF) 模型,来识别具有相似

概况的公司[123]。然而,这些系统并没有提供根据相似程度对公司进行排名的

方法,而且需要领域专家进行耗时、耗力的人工分析和数据处理[123]。最近,贝莱德的一个团队[124]探索了一种使用 LLM 进行公司分类的新方法。他

们研究了使用预训练和微调的 LLM 根据 SEC 文件中的业务描述生成公司嵌入

的情况。他们的研究旨在评估嵌入重现 GICS 分类的能力,对各种下游财务任务

中的 LLM 性能进行基准测试,并检查预训练目标、微调和模型大小等因素对嵌

入质量的影响。结果表明,LLM 生成的嵌入,尤其是来自微调的 Sentence-BERT

模型的嵌入,可以准确地重现 GICS 部门和行业分类,并在基于回报相关性识别

类似公司和解释横截面股票回报等任务上表现出色。

有趣的是,知识图谱还可以用来丰富行业分类,提高特定领域文本分类任务的性

能。王等。[125]提出了一种新颖的知识图谱丰富 BERT (KGEB) 模型,该模型将

来自本地知识图谱的外部知识与单词表示相结合。他们通过构建基于中国新三板

上市公司的大型数据集证明了其方法的有效性,并表明 KGEB 模型的表现优于

竞争基线,包括图卷积网络、逻辑回归、TextCNN、BERT 和 K-BERT,准确率

达到 91.98%,F1 得分为 90.89%。

文档或主题分类是金融领域文本分类中另一个重要的子任务。这项任务涉及对金

融文档或文本进行分类,例如新闻文章[126],

[

127]或公司备案文件[128],

[

129],

分为预定义的主题或主题。Alias 等人[130]提出了一种新方法,利用 FinBERT 模

型从马来西亚证券交易所上市公司的年度报告中提取和分类关键审计事项

(KAM) 的相关主题。同样,Burke 等人。[131]对 FinBERT 模型进行微调,对

三个未标记的财务披露中的会计主题进行分类,包括财务报表的自定义注释、管

理层讨论与分析部分以及风险因素部分。

金融领域的另一项重要分类任务涉及对环境、社会和治理 (ESG) 信息进行分类。

这项任务需要从多个来源(包括企业可持续发展报告、新闻文章和社交媒体帖子)

识别和分类 ESG 相关数据,例如碳排放、多样性和包容性以及公司治理实践。

在最近的一项研究中,Lee 和 Kim [132]提出了一种 ESG 分类器,可以通过微

调预先训练的语言模型来区分 ESG 信息。该分类器在由五个行业的韩国公司可

持续发展报告构建的手动标记数据集上进行训练,对四类分类问题(环境、社会、

治理和中立)的分类准确率达到 86.66%。同样,Mehra 等人。[133]开发一个名

为 ESGBERT 的领域特定语言模型,通过使用 ESG 特定文本对 BERT 的预训

练权重进行微调,并进一步对分类任务的模型进行微调,来增强 ESG 相关文本

的分类。

文本分类技术(包括行业/公司分类和文档/主题分类)在组织和理解金融领域中

的大量非结构化数据方面发挥着至关重要的作用。LLM 和知识图谱集成方面的

最新进展显著提高了这些分类任务的准确性和效率。这些技术的成功应用可以进

一步提供有价值的见解,并支持在各种金融环境中做出明智的决策,例如投资组

合构建、风险评估和 ESG 分析。

3.2 情绪分析

情感分析是 NLP 领域的一个重要组成部分,也是金融应用中最重要的任务之一。

它涉及对文本数据中表达的观点、情绪、主观性和情感的定量探索。134],

[

135]。这项任务在金融应用中具有特殊意义,因为对市场情绪的解读可以带来有影响力

的预测和行动[136]。它的演变反映了 NLP 领域更广泛的进步,从基于规则的系

统过渡到复杂的机器学习模型,最近又过渡到利用大型预训练语言模型的深度学

习方法。

3.2.1 ⼤语⾔模型前情绪分析

首先,我们在本节中概述了情绪分析的重要里程碑,这些里程碑是在 ChatGPT

和 BERT 等 LLM 彻底改变该领域之前的时代。此外,它还重点介绍了金融领域

内的关键应用,展示了情绪分析对各种应用的影响。

基于词典的方法: 早期的情绪分析依赖于基于词典的方法,其中根据与正面或

负面情绪相关的预定义单词的存在来推断文本的情绪。这些方法简单但对某些应

用有效,包括一般询问者[137]、语言调查和字数统计 (LIWC) 词典[138]、南加

州[139],以及 Loughran 和 McDonald(LM)单词表[140]。

基于词典的方法的优势之一是其简单性和可解释性。然而,它们的表现可能受到

情绪表达的上下文依赖性以及无法捕捉讽刺或反讽等复杂语言结构所表达的情

绪的限制。尽管存在这些限制,基于词典的方法已在金融领域得到有效应用,特

别是在分析金融新闻或社交媒体内容中的投资者情绪时。141],[142],[143]。

机器学习方法: 随着机器学习的出现,金融情绪分析 (FSA) 取得了重大进展。

基于 ML 的方法大致可分为监督学习和无监督学习。在进行 FSA 时,监督学习

方法需要标记数据,并包括支持向量机 (SVM) 等技术[144],朴素贝叶斯[145],

KNN(K 最近邻)[146]、随机森林[147]和多层感知器 (MLP) [148]。相比之下,

无监督学习不需要标记数据,通常涉及聚类技术来辨别情绪[149]。

图 4:选取金融领域情绪分析任务的代表性论文,按不同数据源进行分类。在金融领域,机器学习已被用来根据金融新闻和社交媒体的情绪来预测市场走势,

展示了其捕捉金融情绪细微差别的能力。166]。机器学习方法的优势在于能够捕

捉数据中的复杂模式,而这些模式对于基于词典的方法来说并不明显。然而,它

们需要大量的数据集进行训练,而且在特定领域,其多功能性有限。

基于嵌入的方法:词嵌入的引入标志着一般情绪分析的一个重要里程碑。基于嵌

入的方法在高维空间中表示文本信息,其中语义相似的单词更接近。这种表示不

仅可以捕捉情绪,还可以捕捉单词的上下文,从而提高情绪分析任务的性

能。Mikolov 等人对 Word2Vec 的介绍[167]于 2013 年问世,是该领域的一项

开创性进展。Word2Vec 使用神经网络从大型数据集中学习单词关联,生成能够

捕捉各种语言关系和细微差别的嵌入。Word2Vec 的创新之处在于它能够有效地

从大量数据集中学习高质量的词向量。它为此提供了两种架构:连续词袋

(CBOW) 和 Skip-gram。CBOW 根据上下文单词预测目标单词,而 Skip-gram 则

相反,根据目标单词预测上下文单词,这使得它在捕捉语义和句法单词关系方面

特别有效。

在 Word2Vec 之后,出现了几种其他嵌入模型,进一步推动了该领域的发展。

其中值得注意的是用于词表示的全局向量 (GloVe) [168],引入了一种无监督学

习算法,通过从语料库中聚合全局单词共现统计数据来获取单词的向量表示;

FastText [169],它扩展了 Word2Vec,考虑了子词信息,从而增强了稀有词的表

示;以及来自语言模型的嵌入(ELMo)[170],它利用双向语言模型来生成上下

文丰富的词嵌入。

除了单词级嵌入之外,人们还在努力捕捉更长的上下文依赖关系。该领域的一个

典型例子是 Doc2Vec,也称为段落向量,由 Le 和 Mikolov 提出 [171]。Doc2Vec

扩展了 Word2Vec 范式以支持文档级嵌入,从而能够捕获文档范围的上下文信

息,这对于需要理解扩展文本内容的任务至关重要。通过从可变长度的文本中学

习固定长度的特征表示,Doc2Vec 有助于更深入地理解文档语义,从而扩大嵌入

技术在情感分析及其他领域的适用性。

基于嵌入的方法具有捕捉上下文复杂性和单词之间语义关系的优势,可显著提高

情绪分析的准确性。这也使它们在 FSA 中很受欢迎。Sohangir 等人。[172]强调

了这些方法在金融领域的有效性,证明了它们能够从大量非结构化金融数据中高

精度地提取情绪。

然而,它们并非没有缺点。一个明显的限制是它们依赖于大型数据集进行训练,

这在专业领域可能并不总是可行的。此外,虽然它们擅长语义理解,但它们可能

会忽略语法上的细微差异,需要重新训练才能适应新的语言用法或词汇。预训练

的嵌入还可能延续其训练数据中存在的偏差,从而导致公平性和代表性方面的潜

在问题。尽管存在这些挑战,但基于嵌入的方法对于推进自然语言理解至关重要,

并为 BERT 和 GPT-3 等大型语言模型铺平了道路,这些模型基于这些嵌入来实

现最先进的 NLP 性能。3.2.2 使⽤⼤语⾔模型进⾏情感分析

ChatGPT 和其他 LLM 的出现代表了 FSA 领域的一个重要里程碑。如今,这些

模型已在众多任务中证明了其有效性,并为 FSA 应用提供了多种独特优势。

首先,大语言模型擅长解读复杂的金融语言,熟练掌握社交媒体和金融博客中的

非正式表达、表情符号、表情包和专业术语。58],[60],[173],[174],[175],

[151]。他们能够熟练地识别诸如讽刺、挖苦和行业特定术语等细微差别,这对

于准确分析从推文到综合财务报告等各种形式的情绪至关重要[176],[6]。

其次,大语言模型处理图像、音频和视频等多模态数据的能力和巨大潜力,对于

收益电话会议等金融环境中的全面情绪分析至关重要。155]和 FOMC 会议[177]。

此功能允许将非语言线索和视觉数据整合到情绪分析过程中[三十七]。

第三,LLM 处理大量文档的能力使人们能够彻底分析详细的财务报告和冗长的

文章,确保不会忽略任何带有情绪的信息。此功能对于评估年度报告、收益记录

和大量财务叙述中表达的情绪特别有益[157]。

此外,LLM 还表现出对 FSA 任务中可能遇到的对抗性攻击或欺骗性信息策略的

增强抵御能力。其先进的算法和更广泛的上下文理解有助于识别和减轻误导性或

操纵性情绪指标,从而提高情绪分析结果的可靠性。Leippold [156]强调了传统

基于关键字的情绪分析方法与 LLM 在面对对抗性攻击时的对比。该研究涉及使

用 GPT-3 用同义词替换否定词来评估模型的鲁棒性,展示了 FinBERT 相对于

传统基于关键字的方法在对抗性攻击方面的增强的弹性。

3.2.3 数据驱动的应⽤程序

我们进一步深入研究了 LLM 在 FSA 中整合的最新进展,根据不同的数据源对

其影响和贡献进行分类分析。我们通过将数据分为四个关键部分来开展这项探索:

社交媒体和新闻、公司披露、市场研究报告以及政策和经济指标。这种结构化方

法可以全面了解 LLM 如何彻底改变 FSA 领域,提供前所未有的洞察力和分析

能力。

社交媒体和新闻:社交媒体平台(如 Twitter)、一般在线论坛(如 Reddit)和

金融专用论坛(如 StockTwits)以及金融博客和微博已成为 FSA 丰富的数据来

源。这些平台至关重要,因为它们拥有丰富的实时、非结构化文本内容库,反映

了公众对金融市场、特定股票和整体经济环境的看法。这些平台上讨论的即时性

和公开性使它们成为捕捉市场情绪的宝贵资源,可以预测未来的市场走势。苏等

人。[150]利用 BERT 从 Twitter 中提取情感和语义洞察,促进改进协方差估计

并增强投资组合优化。将文本衍生的协方差数据集成到均值方差优化中,使这项

工作取得了优异的表现,尤其是在 COVID-19 危机期间。此外,Steinert 和

Altmann [60]使用 GPT-4 对 Stocktwits 平台上的微博消息进行情绪分析,其表

现远超针对苹果和特斯拉股票的简单买入并持有策略,这凸显了 LLM 在通过情

绪分析预测股价走势方面的潜力。尽管 LLM 在情绪分析方面很有效,但社交媒体来源带来了独特的挑战,包括海量的信息、经常使用的口语化语言、可能的选

择性偏见以及共享消息中存在错误信息或不准确信息,这些都使准确捕捉和解读

市场情绪的任务变得复杂[178]。

新闻是另一个重要的数据来源,它在快速传播和广泛影响方面与社交媒体有许多

相似之处,但它通常更关注客观事件。与社交媒体往往主观和个人化的性质相反,

新闻内容通常来自更负盛名和更成熟的媒体,包括《纽约时报》等知名报纸、CNN

和 BBC 等电视广播公司,以及《经济学人》等金融专题出版物。这些媒体的记者

和作家的可信度和专业性使内容更具可信度,尽管有时会以牺牲时效性为代价。

越来越多的证据支持后 ChatGPT 时代的大语言模型相对于早期方法的优势,尤

其是在分析新闻标题的情绪方面。Lopez -Lira 和 Tang [152]研究 ChatGPT 在

预测股市回报方面的有效性,表明其能够准确地为标题分配情绪分数,并且优于

GPT-2 和 BERT 等早期模型。此外,Fatouros 等人。[153]表明,GPT-3.5 在分

析外汇相关新闻标题方面比 FinBERT 有了显着的改进。同样,Luo 和 Gong

[154]报告开源 Llama2-7B 模型取得显著成功[二十六],取得了超越以往基于

BERT 的方法和传统方法(如带有 ELMo 的 LSTM)的性能。这些研究强调了高

级 LLM 在决策和量化交易中的重要性。

在这个数字时代,实时新闻现象越来越普遍。这些新闻来源通过直播或在线平台

发布,在准确性和即时性之间取得平衡,及时洞察可能影响金融情绪的市场状况

和公共事件。179] .陈等人[180]研究使用 BERT、RoBERTa 和 OPT 等高级 LLM

进行情绪分析和股票预测。这些模型通过捕获复杂的文本信息并提供更准确的上

下文理解,明显优于 Word2vec 等传统方法。它还表明基于 LLM 的模型可实现

更高的夏普比率和更好的性能。至关重要的是,研究表明,由于套利限制,新闻

信息被纳入股票价格时会有所延迟,为实时交易策略利用这些低效率创造了机会。

这凸显了 LLM 在实时金融文本挖掘中的潜力。

公司披露:公司披露在 FSA 中的重要性越来越受到认可。本节深入探讨了公司

披露的三个主要类别:收益电话会议、公司通讯以及监管文件和法律文件(例如

SEC 文件),每个类别都强调了其重要性并附有相关研究。

收益电话会议对于了解公司的财务状况、战略方向以及管理层对业绩和未来前景

的看法至关重要。收益电话会议记录的情绪分析可以揭示可能影响投资者决策和

市场认知的潜在基调和情绪。Cook 等人。[155]评估本地大语言模型在解读金融

文本方面的表现,尤其侧重于分析后疫情时代和 2023 年初银行业压力下的银

行收益电话会议的语气和内容。他们表明,本地大语言模型对于分析金融沟通非

常有效,表明在银行业压力增加的时期,银行收益电话会议内容变得更加同质化,

积极情绪减少。莱波尔德 [156]证明了使用 GPT-3 进行金融情绪分析容易受到

对抗性攻击,凸显了 LLM 的必要性,以确保人工智能在金融文本处理的可靠性。

企业沟通包括公司向利益相关者发布的各种官方声明、新闻稿和公告。这些沟通

中所蕴含的情绪会显著影响利益相关者对公司当前状况和未来前景的看法。大语

言模型可以处理这些沟通,以评估情绪并识别潜在的市场动态信息。例如,Kim

等人。

[

157]说明 ChatGPT 可以通过缩短长度和增强内容情感来显著简化和澄清公司对投资者的披露信息,同时揭示普遍存在的“膨胀”问题——财务报告中过多、

冗余或不相关的信息——这可能会掩盖明智投资决策所需的真正见解。

监管备案和法律文件对于合规、治理和透明度至关重要,它们提供了有关公司运

营、风险和财务状况的大量信息。大语言模型可以处理这些复杂的文件并识别与

情绪相关的信息,例如诉讼风险、会计违规和管理变更。Aparicio 等人。[158]介

绍了 BioFinBERT,这是一种经过微调的语言模型,它利用监管文件和法律文件

(例如 10-Q、10-K、6-K 和 20-F 报告以及生物技术公司新闻稿)的情绪分析

来执行市场订单并预测生物技术领域的股价走势。另一篇论文[159]研究了在人

工智能时代,企业如何调整监管披露信息,使其更易于机器阅读,从而影响金融

市场所表达的情绪和信息传播速度。

市场研究报告: 市场研究报告涵盖了经济指标、行业分析和消费者行为等广泛

的数据,对于金融决策至关重要。分析师报告和投资研究的意义在于它们对证券

的详细分析和建议,提供了对市场趋势和潜在投资机会的深刻理解。分析师评级,

例如“买入”、“持有”或“卖出”建议,提供了对证券未来表现的另一种简明评估,是

投资者的宝贵指南。这些评级基于严格的财务分析,投资者密切关注这些评级,

以评估市场情绪并做出战略投资选择[160] .

政策和经济指标: 在金融情绪分析领域,特别是在政策和经济指标方面,人们

非常重视对联邦公开市场委员会 (FOMC) 会议纪要、欧洲中央银行 (ECB) 政策

决策以及其他关键指标(如非农就业数据、失业率、通货膨胀率和 GDP 增长)

的分析。这些来源对于了解市场动态和根据政策决策和经济报告得出的情绪指导

投资决策至关重要。

FOMC 会议纪要是了解美联储货币政策立场的重要信息来源[181],[182]。这些

会议纪要详细介绍了 FOMC 会议期间的讨论和审议,揭示了经济前景、通胀预

期和潜在的利率变化[161]。研究人员已采用大语言模型来分析 FOMC 会议纪要

的情绪和基调。Kim 等人。[162]研究表明,尽管 FinBERT 在预测 FOMC 声明

中的负面情绪方面优于传统技术,但仍需要进一步增强和探索替代方法来优化对

FOMC 文本的分析并获得更全面的经济洞察。Gössi 等人。[163]提出了一种采用

情感聚焦方法进行微调的 FinBERT 模型,显著提高了 FOMC 会议纪要中复杂

金融句子的情感分析准确率,尤其是那些包含矛盾情绪连词的句子。

欧洲央行负责制定欧元区的货币政策,其政策决定对金融市场有重大影响。183]。

欧洲央行的政策决定,包括利率调整和资产购买计划,受到投资者和分析师的密

切关注[184],[185]。最近的研究利用大语言模型学位来分析欧洲央行政策决定

对金融市场的情绪和影响[164] . 利用 FinBERT 模型,Kanelis 和 Siklos [165]

显示,货币政策演讲中的情绪可以解释新闻发布会声明的基调,而金融稳定演讲

的解释力较小,凸显了大语言模型在经济交流中提供详细情绪分析的能力。

除了 FOMC 会议纪要和欧洲央行政策决定外,其他一些经济指标和研究报告也

与 FSA 相关。非农就业数据和失业率提供了对劳动力市场的洞察,并可能对市

场情绪产生重大影响[186]。通货膨胀率和 GDP 增长也是受到密切关注的指标,因为它们反映了经济的整体健康状况[187],[188]。运用大语言模型学位来分析

这些经济指标对金融市场的情绪和影响值得在未来的研究中进一步探索。

3.3 ⾦融时间序列分析

3.3.1 时间序列⼤语⾔模型

深度学习彻底改变了时间序列分析,为建模和预测序列数据提供了强大的工具。

189],[190],[191]。LSTM 网络和 CNN 等著名的深度学习模型已证明在捕捉

时间序列数据中的时间依赖性和异常方面具有显著的有效性[192],

[

193],

[

194]。

随着大语言模型(LLM)的普及,这些工具越来越多地被用来协助时间序列任务

[195],[196]。它们提供了许多辅助功能,例如从文本数据生成附加特征和生成

描述性统计数据(正如我们在第 3.1 和 3.2 节中讨论的那样),这些功能可以通

过利用原始数据之外的更广泛的信息来提高时间序列模型的准确性。

除了这些支持性角色之外,大语言模型还被用于直接分析时间序列数据[197],

[198],这一发展得到了多种因素的支持。这主要归因于 LLM 理解和处理顺序数

据的能力,这是文本和时间序列之间的共同特征。此外,大多数 LLM 所依赖的

Transformer 架构已被证明在各种时间序列任务中是有效的[199],

[

200],

[

201]。

此外,LLM 表现出卓越的多模态能力,这表明,即使仅基于文本,它们在庞大数

据集上进行的预训练也能赋予超越特定数据模态的一般推理和推理能力[202 这

一特点不仅为 LLM 在时间序列分析中的直接应用提供了支持证据,而且为未来

的多模态基础模型铺平了道路。203]。

一些著名的研究已经证明了 LLM 在时间序列分析中的有效性。Zhou 等人的开

创性努力[204]展示了 LLM 在预测、异常检测、分类和归纳等任务中的多功能

性。使用 GPT-2 主干,他们建立了 LLM 有效处理和建模时间序列数据的潜力。

Gruver 等人。[205]进一步探索预训练 LLM 在时间序列预测中的零样本能力。

通过对时间序列数据进行适当的标记化,他们发现 LLM 可以隐式理解时间模式

并生成预测,而无需显式训练。Jin 等人。[206]应用重新编程的概念来增强 LLM

在时间序列分析中的性能。该技术将时间序列数据转换为 LLM 更容易理解的表

示形式,从而产生最先进的预测结果。除了直接的 LLM 应用之外,研究人员还

专注于开发专门用于时间序列分析的基础模型[207],[208]。这些努力旨在建立

时间序列建模的新范式,利用 LLM 中的技术来捕捉复杂的时间依赖关系。图 5:金融时间序列分析的说明。3.3.2 预测

最近的研究探索了 LLM 在金融时间序列预测领域的实用性,展示了这些先进计

算工具的潜力和局限性。本节回顾了有助于我们理解 LLM 如何应用于预测股市

走势和其他金融指标的关键研究。

LLM 可以直接用于股票预测,如[209]。他们的研究探索了使用 LLM 进行纳斯

达克 100 股票预测,并表明通过整合不同的数据源,LLM 不仅可以提供稳健的

预测,还可以增强可解释性。该研究强调了基于指令的微调和思路链推理的重要

性,事实证明,这些方法可以显著提高 LLM 在该领域相对于传统统计模型的性

能。另一种方法是集成 LLM 来增强其他神经网络。陈等人。[210]介绍了一个利

用 ChatGPT 增强图神经网络 (GNN) 进行股票走势预测的框架。他们的方法巧

妙地从文本数据中提取不断发展的网络结构,并将这些网络合并到 GNN 中以执

行预测任务。实验结果表明,该模型的表现始终优于最先进的基于深度学习的基

准,年化累计回报率更高,波动性更低。

此外,正如上一节所讨论的,大语言模型还因其能够集成到多模态数据分析中而

引人注目,这在分析替代数据时至关重要。例如,Wimmer 和 Rekabsaz [211]

引入了利用文本和视觉数据预测市场动向的创新模型。利用基于 CLIP 的模型,

他们的研究显示,在预测德国股票指数趋势方面,其表现明显优于既定基准。精

度、F1 分数、平衡准确度等指标显示了这些多模式方法的有效性。另一项值得

注意的研究是 RiskLabs 框架,它结合了各种类型的财务数据,包括收益电话会

议中的文本和语音信息、与市场相关的时间序列数据和上下文新闻数据[212]。

该框架的多阶段流程首先使用 LLM 提取和分析这些数据,然后处理时间序列数

据以对不同时间范围内的风险进行建模。RiskLabs 采用多模态融合技术将这些

不同的数据特征结合起来,实现全面的多任务金融风险预测。实证结果证明了该

框架在预测金融市场波动性和方差方面的有效性,表明了 LLM 在金融风险评估

方面的潜力。

然而,大语言模型在金融预测中的应用并非没有挑战。谢等人。[213]专门评估

了 ChatGPT 在零样本多模态股票走势预测任务中的表现,发现与传统机器学习

模型和其他最先进的技术相比,它的表现不佳。他们的研究结果强调了持续研究

的必要性,以增强 LLM 在复杂金融环境中的预测能力。另一方面,Lopez-Lira

和 Tang [152]研究这些模型(尤其是 GPT-4)使用新闻标题作为输入来预测股

市回报的效果如何。他们的结果表明,高级 LLM 的表现明显优于传统模型和早

期版本的 LLM。值得注意的是,这些模型表现出更高的有效性,尤其是在负面

新闻之后和对于较小的股票而言,这一现象可以通过信息传播、套利限制和投资

者成熟度理论来解释。关于 LLM 在金融预测中的有效性的争论仍然存在,有证

据支持它们的局限性和潜力。

尽管存在早期挑战,但研究表明,大语言模型在金融时间序列预测方面前景广阔。

可解释性、对新闻的全面理解和多模态集成是未来研究和改进的引人注目的领域。

然而,它们也标志着挑战和进一步研究的必要性,以充分发挥大语言模型在这一

领域的潜力。3.3.3 异常检测

异常检测是各个领域的一项基本任务,特别是在金融领域,识别异常模式或异常

值至关重要。214]。例如,识别欺诈交易或异常账户活动是金融机构的首要任务。

异常检测算法可以标记潜在的欺诈行为,防止财务损失[215]。此外,可以通过

交易量和价格模式的异常检测来发现市场操纵行为,例如哄抬股价策略[216]。

异常检测在风险评估和缓解策略中也很有价值,因为市场趋势或宏观经济指标的

异常可能预示着潜在的风险。

股票价格等金融时间序列数据可能非常复杂,具有波动性、季节性和非线性关系

等特点。传统的统计方法虽然稳健,但往往难以囊括这些复杂性的全部范围,从

而限制了它们的异常检测能力。深度学习的发展催化了根本性的转变,提供了对

这一领域具有巨大前景的新方法。217],[218]。特别是,LLM 已成为一种关键

方法,在众多任务的异常检测中表现出显著的功效,正如最近的学术著作所证明

的那样[217],[219]。例如,Park[220]引入了一个基于 LLM 的多智能体框架,

将传统统计方法与人工智能驱动的分析相结合。这种创新的融合通过应用于标准

普尔 500 指数得到了体现,展示了金融市场异常检测效率、准确性和自动化的

显著提高,从而减少了对人工干预的依赖。将 LLM 集成到金融时间序列异常检

测中可能会变得越来越有价值,这不仅有可能解决传统技术的局限性,而且还可

能减少手动流程并增强利用市场异常的算法交易系统,为更复杂和自动化的交易

系统铺平道路。

3.3.4 其他时间序列任务

除了预测和异常检测之外,LLM 的功能在金融时间序列分析的其他几个领域也

具有广阔的潜力。

分类:金融时间序列可以根据趋势、波动性或其他特征分为不同的类别。LLM 可

以学习这些复杂的模式并相应地分配标签。例如,它们可以将股票分类为“增长”

或“价值”,或识别不同的市场机制(看涨、看跌等)。[221]。LLM 可以通过理

解和预测指示特定金融行为的模式来有效地对金融时间序列数据进行分类。这包

括我们已经讨论过的 情绪分析(第 3.2 节)和异常检测(第 3.3.3

节)的应用。数据增强: 金融数据集的有限大小和可变性有时会阻碍机器学习

模型。生成式 AI 提供了一条数据增强的途径,它涉及生成可用于训练机器学习

模型的合成数据,确保尽管数据集最初存在限制,但仍具有稳健性。Nagy 等人

最近发表的一篇论文。[222]引入了一种用于端到端限价订单簿建模的生成式 AI

模型,展示了如何使用代币级自回归生成模型在金融市场中生成真实的订单流。

该模型利用结构化的状态空间层来有效处理订单簿状态和代币化消息的长序列。

该模型在近似数据分布和预测中间价格回报方面表现出色,表明其在高频金融强

化学习中具有潜在应用。虽然这项工作侧重于生成式 AI,而不是直接使用 LLM,

但其方法和见解与增强金融时间序列数据相关,凸显了生成模型在该领域的多功

能性。通过模拟各种市场场景,LLM 可以帮助创建更丰富、更多样化的数据集,

从而有助于构建更准确的预测模型[223]。归纳法: 金融时间序列数据经常因错误或不可用而出现缺失值。归纳法是指填

补金融时间序列中缺失或不完整数据点的方法。LLM 凭借其卓越的生成能力,

具有填补这些缺失值的良好潜力[224]。这对于保持财务数据分析的质量和连续

性特别有用。准确的归因有助于避免由于数据缺口而可能出现的偏差或不准确性,

从而确保更可靠的财务评估和预测。

总之,LLM 在金融时间序列分析方面表现出巨大的潜力,提供预测、异常检测、

模式分类、数据增强、归因等功能。它们处理和理解复杂金融数据的能力为市场

分析的新方法开辟了道路。随着 LLM 研究的进展,我们可以预期这些模型在金

融时间序列领域的应用将继续取得进展。

3.4 财务推理

LLM 在金融领域的另一个关键应用是支持金融推理。如前所述,LLM 能够处理

和综合来自各种来源的大量财务数据,包括市场报告、财经新闻和历史定价数据。

对金融格局和市场动态的全面了解可能使 LLM 能够支持战略财务规划、生成投

资建议、提供咨询服务并协助财务决策。

在金融推理中使用 LLM 有几个关键优势。首先,它们可以通过处理大量财务信

息来增强数据分析,识别有助于做出更好决策的模式和趋势。其次,LLM 可用

于预测模型,使其能够预测市场状况和资产表现,从而可能带来可靠的投资建议。

此外,LLM 还可以提供个性化的咨询服务。他们可以分析个人或组织的财务状

况、目标和风险承受能力,以提供定制化建议。另一个好处是实时监控和警报,

LLM 可以监控金融市场趋势和新闻,提供及时的更新和警报,帮助用户根据需

要调整策略。此外,LLM 可以提高可访问性和参与度。通过将这些模型集成到

聊天机器人等用户友好的界面中,财务规划和咨询变得更加容易访问和引人入胜,

个人可以掌控自己的财务状况。

在本节中,我们将通过文献探索这些应用,以期激发进一步的创新。

图 6:各种财务推理任务的说明。3.4.1 规划

财务规划包括设定财务目标、评估当前财务状况以及制定实现这些目标的策略。

此过程包括分析收入、支出、投资和风险管理,以制定长期财务稳定和增长的综

合计划。

在企业环境中,大语言模型可用于支持财务规划的各个方面。例如,大语言模型

可以分析市场趋势和竞争对手数据,以帮助组织制定业务战略。Nguyen 和

Tulabandhula [225] 研究了生成 式 AI 模型(例如 GPT-4 和其他基于

Transformer 的模型)在业务战略制定中的应用。通过使用命名实体识别 (NER)

和零样本分类器 (ZSC) 自动提取和分类公司之间的关系,他们创建了动态签名

业务网络,反映了竞争和协作的市场格局。这种方法为业务利益相关者提供了对

市场状况的洞察,并支持战略决策。

此外,大语言模型可以简化财务规划流程,正如 Ludwig 和 Bennetts 所证明的

那样[226]。通过将 ChatGPT 整合到财务规划实践中,他们展示了财务规划师如

何利用这种人工智能模型来加强与客户的沟通,并对常见的财务问题(例如为经

济衰退做准备)提供即时、半个性化的响应。他们还强调了 ChatGPT 在客户教

育中的作用,以及它简化复杂财务概念以便更好地理解的能力。尽管有这些好处,

但作者强调需要人工监督,以确保所提供建议的准确性和质量,从而解决模型的

潜在局限性。

在个人理财规划中,大语言模型可以帮助个人制定定制的长期财务健康策略。

Lakkaraju 等人最近进行了一项研究。[227]评估了基于 LLM 的聊天机器人

ChatGPT 和 Bard 在提供个人理财建议方面的表现。该研究涵盖了个人理财的

各个方面,包括与银行账户、信用卡和存款证 (CD) 相关的决策。它评估了这些

模型如何处理复杂的财务互动,并如何在不同的语言和方言(如英语、非裔美国

人白话英语和泰卢固语)中提出建议。他们的研究结果表明,虽然 ChatGPT 通

常提供更个性化和准确的响应,但这两种模型都面临着挑战,包括数学错误、缺

乏支持解释的视觉辅助以及难以有效处理非英语查询。本文强调需要改进这些

LLM,以提高其在应用于财务规划时的可靠性和包容性,这个主题将在第 5 节中

进一步讨论。

此外,大语言模型可以通过将人工智能驱动的建议纳入个人和家庭财务模型来优

化预算策略。de Zarzà 等人。[228]提出一个优化个人预算分配的框架,以最大

限度地增加储蓄,并将这种方法扩展到家庭财务,解决多收入和共享支出的复杂

性。在高净值环境中,大语言模型还可用于模拟各种税收情景,确定最佳税收策

略,并根据不断变化的税法提供主动建议,以最大限度地减少纳税义务并最大限

度地提高财务增长[229]。

将 LLM 融入财务规划可能会改变个人和企业实现财务目标的方式。通过利用

LLM 的数据处理和分析功能,财务规划可以变得更加高效、准确和个性化。随

着该领域的研究和开发不断进步,LLM 有望成为财务规划环境中的重要工具,使用户能够做出明智的战略决策。本节讨论的示例突出了 LLM 的广泛应用范围

以及彻底改变企业和个人财务规划实践的潜力。

3.4.2 推荐

LLM 通过分析财务数据、预测市场趋势和优化投资组合,彻底改变了投资建议

和财富管理。它们根据个人风险状况和偏好提供个性化建议,从而改善机器人顾

问和投资策略。然而,将 LLM 融入财富管理需要监管框架,以确保公平、有效

和明智的决策,并结合人类的专业知识。

投资咨询大语言模型:通过提供个性化和自动化的投资建议,LLM 在增强机器

人顾问的能力方面发挥着至关重要的作用。例如,Huang 等人。[230]强调了

Wealthfront 和 Betterment 等平台的有效性,这些平台采用人工智能算法提供

定制的资产管理计划,旨在根据个人用户资料优化投资回报。该研究强调了一致

使用、透明度和以用户为中心的设计对于最大限度地发挥智能顾问的优势的重要

性。为了建立用户信任并提高机器人顾问的整体效率,作者建议关注关键领域,

例如提高透明度、设计直观的用户界面以及根据个人需求提供量身定制的金融服

务。

同样,Lu 等人[231]探索 ChatGPT 在生成投资组合建议方面的潜力。研究人员

使用《华尔街日报》和中国政策公告的文本数据,评估了 ChatGPT 生成跑赢市

场的投资组合的能力。通过微调和性能测量,研究表明 ChatGPT 每月可实现高

达 3% 的三因子 alpha,尤其是在分析与政策相关的新闻时。他们强调了模型

参数(例如“温度”设置)在影响建议的创造性和准确性方面的重要性,表明经过

适当调整的生成式 AI 可以成为财务顾问的宝贵工具。

该领域的另一项发展是 Ramyadevi 和 Sasidharan 提出的认知财富系统。232]。

该平台利用 Llama 2 模型作为财务顾问。该系统利用 NLP 和机器学习技术,通

过提供个性化的投资建议和财务见解,为专业基金研究人员和普通投资者提供帮

助。Cogniwealth 能够处理用户提供的数据并通过直观的界面提供类似人类的响

应,从而确保高水平的适应性、用户友好性和参与度。

对投资策略的影响: LLM 正在改变投资策略的格局,提供提供更准确、多样化

和可访问的投资建议的潜力。一个典型的例子是高和李的研究[233],展示了

ChatGPT 构建投资组合的能力,与随机选择的投资组合相比,该投资组合具有更

高的多样性和绩效。这一发现凸显了 LLM 可以作为专业投资组合经理和个人投

资者的宝贵咨询工具的潜力,使人们能够更自由地获取先进的投资策略。

LLM 还可以通过自动创建准确且可执行的技术指标代码来影响算法交易策略的

开发。Noguer i Alonso 和 Dupouy 进行的研究 [234]比较了各种 LLM(例如

GPT-4-Turbo、Gemini-Pro、Mistral、Llama 2 和 Codellama)在生成正确运行并

与基线实现相匹配的代码方面的能力。该研究强调了精心设计的提示和模型处理

复杂财务计算的能力对于成功生成代码的重要性。最近,Kim 等人[235]研究了 LLM(特别是 GPT-4 Turbo)执行财务报表分析的

能力,其能力堪比专业的人类分析师。通过提供标准化和匿名的财务报表,该研

究考察了该模型在没有任何叙述或行业特定背景的情况下预测未来收益的能力。

研究结果表明,LLM 不仅在预测收益变化方面优于人类分析师,尤其是在具有

挑战性的情况下,而且与专门的最先进的机器学习模型的性能相当。作者声称,

该模型的预测不是来自其训练记忆,而是来自对公司未来表现的有用叙述见解,

从而消除了前瞻偏差。为了解决这种偏见,研究设计对各公司的财务报表使用了

一致的匿名格式,使得该模型几乎不可能推断出公司的身份。此外,报表不包含

任何日期并使用相对年份,从而减轻了人们对该模型利用特定年份的宏观经济趋

势的担忧。此外,基于 LLM 预测的交易策略与基于其他模型的交易策略相比,

具有更高的夏普比率和阿尔法值。

大语言模型在投资策略中的另一个有前景的应用是分析年度报告以提取有价值

的见解,从而增强股票投资策略。Gupta [83]介绍了一个利用 GPT-3.5 简化分析

公司综合 10-K 文件流程的框架。通过将生成的洞察与历史股票数据相结合,该

研究表明,基于这些 LLM 生成的特征训练的机器学习模型可以超越传统市场基

准,例如标准普尔 500 指数。这种方法凸显了将 LLM 与历史数据相结合以提

高股票预测准确性和增强投资策略的潜力。

此外,张等人[236]介绍用于检测金融突破的 BreakGPT。BreakGPT 的多阶段结

构通过系统地分析价格变动和订单流,提高了检测金融市场真假突破的准确性和

稳定性。与 ChatGPT-3.5 和 ChatGPT-4 相比,该模型的卓越性能使其成为交易

者和投资者检测金融突破的宝贵工具。

然而,尽管有这些令人鼓舞的进展,Chuang 和 Yang [237]提出了一个重要的问

题,即 BERT 和 FinBERT 等预训练语言模型中存在的隐性偏见。研究表明,这

些模型对某些股票和行业部门表现出明显的偏见,这可能会影响投资建议的质量

和公平性。他们强调,需要在金融决策系统中意识到并减轻这种偏见,以确保更

可靠、更公平的投资建议。这项研究强调了在金融环境中仔细进行模型训练和评

估以开发强大且负责任的金融咨询系统的重要性。

监管和道德考虑: 大语言模型在金融咨询服务中的应用引起了重大的监管和道

德问题。Caspi 等人。[238]研究了监管环境,强调了维护受托责任、确保透明度

和防止利益冲突等关键问题。他们讨论了应对生成式人工智能带来的挑战的潜在

监管策略,强调需要有效的监管来平衡创新与消费者保护。此外,Niszczota 和

Abbas [239]研究了 GPT 模型的金融素养,结果显示 GPT-4 在金融素养测试中

得分接近完美。然而,他们还发现,金融知识较低的人往往更依赖 GPT 的建议。

Lakkaraju 等人[240]还比较了基于 LLM 的聊天机器人(ChatGPT 和 Bard)与

基于规则的聊天机器人(SafeFinance)在提供个人理财建议方面的有效性和公平

性。他们发现,虽然 ChatGPT 和 Bard 可以生成流畅的响应,但它们在不同用

户组和语言中表现出不一致和偏见。相比之下,SafeFinance 提供了可靠的答案,

尽管通用性有限。该研究表明,需要改进基于 LLM 的系统,以确保财务建议的

公平性和准确性。虽然大语言模型在改变金融咨询服务方面表现出了潜力,但其应用引发了重要的

监管和道德考量。有效的监管应该在创新与消费者保护之间取得平衡,同时让用

户了解人工智能驱动的金融建议的局限性和潜在偏见对于促进明智的决策至关

重要。

3.4.3 ⽀持决策

运营风险管理和合规性是金融行业的重要组成部分,因为它们有助于维护金融机

构的诚信、保护消费者并维持整个金融系统的稳定。然而,金融产品日益复杂、

法规不断变化以及欺诈活动的持续威胁对金融机构构成了重大挑战。LLM 正成

为一种强大的工具,通过提供复杂的分析能力来增强这些流程。通过利用 LLM,

金融机构可以提高审计的准确性、简化合规性验证并更有效地检测不一致之处。

这使金融机构能够在财务审计和监管合规、欺诈检测和风险管理等关键领域做出

明智的决策,最终增强其运营弹性并确保遵守监管要求。

财务审计和监管合规: 财务审计涉及系统地检查财务记录和报表,以确保准确

性和合规性。LLM 越来越多地被用于通过提高文本匹配和监管解释的准确性和

效 率 来增强这些流 程 。 241] . Hillebrand 等 人 进 行 的研究 [242] 推出了

ZeroShotALI,即 Zero-Shot Automated List Inspection(零样本自动清单检查)。

它结合了 GPT-4 和领域特定的 SentenceBERT 模型,以增强财务报告中的文本

片段与特定法律要求的匹配。与传统方法相比,该系统显著提高了财务审计的效

率和准确性。

此外, Cao 和 Feinstein 进行的另一项研究[243]研究了使用 LLM(例如 GPT-

4、GPT-3.5、Claude-3-Opus、Gemini-1.5-Pro)解释复杂的金融法规,特别是巴

塞尔协议 III 的资本要求。有效的提示设计和文档加载方法指导 LLM 将监管文

本翻译成简洁的数学框架,旨在显著提高监管解释的准确性。

此外,通过使用 GPT-4 分析公司的公开叙述披露,Choi 和 Kim [244]开发了一

种新的公司层面税务审计周期测量方法。他们的测量方法与美国国税局 (IRS)

发布的数据高度一致,并表明税务审计导致避税减少、资本投资减少和股票波动

性增加。

大语言模型在发现财务报告中不一致和矛盾方面表现出了潜力。Deußer 等人进

行的一项研究[245]利用 GPT-4 和 Llama 等 LLM 的强大功能,开发了一种识

别财务报告中差异的创新方法。该研究采用基于嵌入的段落聚类来有效检测各种

数据集(包括带注释和未注释的财务报告)中的矛盾。通过利用句子对数据、文

档级数据和智能分类系统,研究人员优化了 LLM 的查询流程,使其能够有效地

找出不一致和矛盾之处。这项研究的结果表明,财务审计的准确性和效率得到了

显著提高,最终减少了进行彻底可靠的财务报告审计所需的时间和精力。

欺诈检测和风险管理: 欺诈检测和风险管理是维护财务诚信和稳定的关键组成

部分。LLM 提供了先进的功能,可以通过复杂的数据分析和模式识别来检测欺

诈活动并管理风险。冯等人进行的一项研究。[246]强调了大语言模型在改革信用评分和风险评估方面的潜力。通过调整教学,大语言模型可以匹敌甚至超越传

统的信用评分模型,从而实现更具包容性和综合性的评估。然而,该研究也强调

需要解决大语言模型中的偏见问题,以确保公平的财务决策。

此外,曹等人[212]提出了一个名为 RiskLabs 的新框架,该框架利用 LLM 通过

整合来自各种来源的数据来预测金融风险。通过处理和融合来自各种数据类型的

特征,包括来自收益电话会议 (ECC) 的文本和语音信息、与市场相关的时间序

列数据以及围绕 ECC 发布日期的背景新闻数据,RiskLabs 在预测金融风险方面

的表现优于传统方法和现有模型,从而提供了对市场动态的更全面的了解。

有几篇论文探讨了 LLM 在欺诈检测中的应用。Zhao 等人。[247]介绍了一种基

于 GPT 的创新模型,用于识别支付系统中的欺诈活动,该模型擅长通过时间和

上下文分析捕捉详细的行为序列。杨等人。[248]引入了 FinChain-BERT 模型,

该模型通过关注关键财务术语和优化模型性能来提高欺诈检测的准确性。同样,

Bhattacharya 和 Mickovic [249]通过在美国证券交易委员会(SEC)数据库的年

度 10-K 报告的“管理层讨论与分析”部分对 BERT 模型进行微调,证明了

BERT 模型在检测财务报告中的会计欺诈方面的有效性,其表现优于现有的基准

模型。

虽然大语言模型在欺诈检测和风险管理方面表现出巨大潜力,但承认并解决这些

模型中可能存在的固有偏见至关重要。大语言模型中的偏见可能导致金融决策中

的不公平和歧视性做法。需要持续进行研究和开发工作以减轻这些偏见并确保大

语言模型在金融领域负责任和合乎道德地部署。

3.4.4 实时推理

实时推理使用户和人工智能系统之间能够实现即时和动态的交互。通过利用

LLM 的丰富知识和理解,金融机构可以部署聊天机器人、虚拟助手和问答系统,

为客户和利益相关者提供准确、相关和及时的信息。这些实时应用程序简化了客

户支持,简化了复杂的金融交易,并提供了即时获取金融见解和建议的途径。

聊天机器人和虚拟助手: 聊天机器人和虚拟助手正在改变金融机构与客户互动

的方式并简化内部流程。通过利用 LLM 的功能,这些人工智能驱动的工具可以

进一步提供更加个性化和有效的助手,从而提高客户满意度并提高组织效率。例

如,Aggarwal 等人。[250]提出了一个多用途 NLP 聊天机器人,它结合了 LLM

模型,包括 ChatGPT、BERT 和 DistilBERT。所提出的系统结合了情感识别、多

语言支持和语音转换。聊天机器人在提供个性化财务建议、理解和响应人类情感

以及在离线模式下保持功能方面表现出色。

在另一项研究中,Yue 和 Au[251]介绍 GPTQuant,这是一款旨在促进投资研究

的对话式 AI 聊天机器人。GPTQuant 利用少样本学习和 LangChain 的集成来

生成用于回测和策略分析的 Python 代码。聊天机器人使用提示模板来激活

GPT-3 的功能,展示了在投资组合构建、重新平衡和因子得分查询方面的功效。最后,Yadav 等人[252]介绍了一种利用 LLM 来增强财务对账流程的虚拟助手。

该助手可自动从自然语言输入生成 SQL 查询,从而简化和加快会计师的对账、

研究和验证流程。利用检索增强生成 (RAG) 和小样本提示的检索和优化策略,

虚拟助手在为与账户对账相关的实际问题生成正确的 SQL 查询方面实现了 95%

的准确率。这种 LLM 的集成显著提高了生成 SQL 查询的准确性和效率,展示

了 LLM 在自动执行财务对账中重复且耗时的任务方面的潜力。

问答: 由 LLM 驱动的问答系统在理解和响应与财务文件相关的复杂查询方面

取得了显着进步。最近的研究集中于增强这些系统的数值推理能力,使它们能够

处理多步骤计算并从各种数据源中提取相关信息。例如,Arun 等人。[253]利用

经过微调的 LLM(例如 Llama-2-7B 和 T5)开发管道,以分析财务报告并回答

数字推理问题。通过从 PDF 中提取和序列化表格、生成嵌入以及在 FinQA 数

据集上进行训练,作者展示了实时分析财务报告的潜力。研究得出结论,通过适

当的微调和方法,LLM 可以显著提高财务数据分析的效率和准确性,通过快速

提取和解释关键数据点,实现在动态市场环境中快速做出明智的决策。

此外,Phogat 等人[254]为包括 GPT-3、GPT-3.5-turbo 和 GPT-4 在内的 LLM

引入零样本提示技术(ZS-FinPYT 和 ZS-FinDSL),以对金融文档进行复杂的数

值推理。通过将推理编码到 Python/DSL(领域特定语言)程序中,这些技术可

以缓解算术限制。在 FinQA、ConvFinQA 和 TATQA 等数据集上的评估表明,

与基线相比,其性能更优异,尤其是在表格/文本数据、多步骤推理和数值问题

方面。

在一项相关研究中,Srivastava 等人[255]研究了 LLM 在金融文档上的数学推

理能力。他们引入了一种新颖的提示策略 EEDP(引出-提取-分解-预测),旨在

提高需要多步数字推理的场景中的 LLM 性能。对金融数据集中的多个 LLM 进

行的大量实验表明,EEDP 优于直接提示、思维链 (CoT) 和思维程序 (PoT) 等

基线策略。该研究强调了结构化提示策略在提高复杂推理任务的 LLM 性能方面

的潜力,并确定了常见的错误类型,强调了精确信息提取的必要性。

此外,薛等人[103]提出了一种专为金融行业设计的尖端对话系统,名为

WeaverBird。它利用了在大量金融语料库上进行微调的 LLM 和 GPT 架构。这

使 WeaverBird 能够理解复杂的金融查询并提供明智的响应,例如通货膨胀期

间的投资策略。通过集成本地知识库和搜索引擎,该系统的性能得到进一步增强,

使其能够检索相关信息并根据网络搜索结果生成响应,并附上适当的来源参考以

增强可信度。在广泛的金融问答任务中进行的比较评估表明,WeaverBird 与其

他模型相比具有更出色的性能,使其成为金融对话和决策支持的强大工具。

3.5 基于代理的建模

基于代理的建模 (ABM) 代表了模拟复杂系统(尤其是金融系统)的重大进步。

ABM 的核心原则是创建在定义环境中交互的自主代理,从而允许自下而上地出

现复杂现象。与假设代理之间行为统一和均衡状态的传统模型不同,ABM 捕捉了现实世界金融市场特有的行为和自适应策略的多样性。这种灵活性使 ABM 成

为了解市场动态、投资者行为以及各种外部因素对金融系统影响的有力工具。

近年来,大语言模型与基于代理的建模的结合为研究和应用开辟了新的途径。

256],[257],[258]。凭借其先进的 NLP 功能,LLM 增强了代理的认知功能,

使他们能够解释和响应大量非结构化数据,例如财经新闻、报告和社交媒体帖子。

LLM 和 ABM 之间的这种协同作用可实现更逼真、更具适应性的模拟,这对于

制定稳健的交易和投资策略至关重要[259]。

ABM 在金融领域的传统应用主要集中于对不同类型的市场参与者之间的互动进

行建模,例如机构投资者、个人交易者和监管机构。260]。这些模型已用于研究

监管变化、市场冲击和行为偏差对市场动态的影响。例如,基于代理的模型已用

于模拟高频交易的影响、金融危机的传播和资产泡沫的形成。在这些模型中添加

LLM 可进一步增强其预测能力和准确性,因为代理能够以类似于人类分析师的

方式处理和响应实时信息。

在本节中,我们将探讨 LLM 与基于代理的建模在各种情况下的集成。我们讨论

基于 LLM 的交易和投资代理如何增强决策和战略制定。我们还研究了 LLM 在

模拟市场和经济活动中的使用,强调了它们对政策分析和市场预测的影响。此外,

我们回顾了多代理系统在改进财务流程自动化和监控方面的作用,强调了这些先

进模型在彻底改变财务分析和战略制定方面的潜力。

图 7:与基于代理的建模相关的财务任务的说明,

3.5.1 交易与投资

金融市场瞬息万变且复杂,需要先进的工具才能有效驾驭。LLM 已被证明是该

领域的强大盟友,因为它能够创建智能交易代理,可以处理大量数据并以高精度

执行交易。这些代理利用 LLM 的 NLP 功能来解释和综合金融新闻、市场报告

和历史数据,从而显著改善市场预测和交易策略。StockAgent [261]等探讨了人

工智能驱动的交易系统在各种外部影响下模拟和分析股票市场行为的潜力。它是

一个由 LLM 驱动的多智能体系统,旨在模拟真实投资者的行为,并评估宏观经

济事件、政策变化和财务报告等外部因素对交易活动的影响。研究发现,不同的

LLM(如 GPT-3.5 Turbo 和 Gemini)表现出不同的交易行为和偏好,GPT 智能

体表现出更加多样化和独立的交易风格,而 Gemini 智能体则更加同质化和顺应

趋势。这种变化表明基于 LLM 的系统可以提供个性化的投资策略和见解。研究还强调,删除金融信息或 BBS(公告板系统)等沟通渠道会显著改变交易行为和

市场动态,凸显了影响股票交易的因素的复杂性和相互依赖性。

LLM 应用的一个显著进步是将多模态数据(文本、数字和视觉)集成到交易代

理中。FinAgent [262]通过结合这些数据类型来支持包括股票和加密货币在内的

量化和高频交易,从而体现了这一点。其多样化的内存检索系统和工具增强功能

使 FinAgent 能够与各种数据源和工具进行交互,从而增强了动态交易环境中的

适应性和性能。

基于大语言模型的交易代理在持续学习和适应方面也表现出色。FINMEM [263]

引入了分层记忆和角色设计,增强了代理处理分层金融数据并将洞察转化为交易

决策的能力。FINMEM 的记忆模块受到人类认知过程的启发,包括工作记忆和分

层长期记忆组件。这种设计使 FINMEM 能够根据信息的相关性和时效性对其进

行分类和优先排序,从而更长时间地保留关键洞察,并能够对新的投资线索做出

敏捷反应。通过现实世界的测试和持续学习,FINMEM 不断发展其交易策略,在

动荡的金融环境中表现出更好的决策能力和适应性。同样,QuantAgent [264]专

注于通过两层循环系统进行自我改进。内循环使用知识库来完善响应,而外循环

则涉及真实世界测试和知识增强。这种迭代方法使 QuantAgent 能够自主提取金

融信号并发现可行的交易机会,展现了 LLM 的动态潜力。

将人类专业知识与人工智能能力相结合是另一项重大进步。Alpha -GPT 系列,包

括 Alpha-GPT [265]和 Alpha-GPT 2.0 [266],强调了阿尔法挖掘过程中的人机交

互。Alpha-GPT 2.0 进一步引入了人机交互框架,用于迭代改进投资策略。这些

代理解释交易想法并将其转化为有效的策略,提供富有洞察力和可操作性的阿尔

法。通过利用人类专业知识和人工智能能力,这种方法提高了阿尔法挖掘过程的

效率和创造力,从而做出更有效的投资决策。

3.5.2 模拟市场和经济活动

模拟市场和经济活动长期以来一直是金融研究和政策分析的一个重要方面。传统

的模拟器通常以计量经济模型和系统动力学为基础,是这项工作的基石。这些模

拟器依靠历史数据和既定的经济理论来预测未来的市场行为。例如,向量自回归

(VAR) 模型和动态随机一般均衡 (DSGE) 模型等模型被广泛用于经济预测和政

策分析[267],[268]。虽然传统模拟器提供了一种结构化且数学严谨的方法,但

它们往往难以应对现实世界经济系统固有的复杂性和动态性。它们通常是静态的,

假设理性行为和平衡,这可能会限制它们的准确性和对不可预见的经济冲击或行

为复杂性的适应性。

相比之下,基于代理的模拟器代表了经济活动模拟的重大进步。这些模型由自主

代理组成,每个代理都有不同的行为和决策过程。这些代理在定义的环境中交互,

允许自下而上地出现复杂的宏观经济现象。基于代理的模拟器的主要优势在于其

灵活性和对具有不同策略和交互的异构代理进行建模的能力。这种方法可以捕捉

市场的非线性动态,例如反馈回路、市场情绪和自适应行为[269]。然而,基于代理的模拟器并非没有挑战。一个显著的缺点是计算复杂性,因为模

拟具有复杂交互的大量代理需要大量的处理能力。此外,开发真实的代理行为和

交互规则需要深厚的领域专业知识,而且可能非常耗时。此外,虽然基于代理的

模拟器可以模拟突发现象,但根据现实世界数据验证这些模型仍然是一项艰巨的

任务,通常需要大量的校准和敏感性分析[270]。

LLM 与基于代理的模拟器的集成代表了经济模拟领域的前沿发展。凭借其先进

的 NLP 功能,LLM 可以增强模拟器中代理的感知、反思和决策过程。这种混合

方法充分利用了两种技术的优势:基于代理的模拟器建模的详细和自适应行为以

及 LLM 的全面数据处理和学习能力。

Li 等人的研究[271]通过展示模拟复杂宏观经济活动的能力,体现了这种集成的

潜力。他们的研究 EconAgent 展示了 LLM 赋能的代理如何通过先进的机制处

理经济数据,从而真实地模拟经济活动。这些代理可以模拟类似人类的决策过程,

全面了解不同经济因素如何相互作用。这使得人们能够更准确地预测经济趋势和

政策变化的影响。这些代理配备了分层记忆系统,可以根据实时数据输入和历史

分析调整策略,使其在预测和政策模拟方面非常有效。

同样地,霍顿[272]探索了将 LLM 用作经济模拟的计算模型。通过赋予 LLM 偏

好和决策框架,他们的方法可以模拟类似人类的经济行为。这些模拟对于社会科

学实验和探索经济情景特别有价值,可提供可为政策和战略提供参考的见解。该

研究引入了硅基人代理,旨在通过结合行为经济学原理来模拟人类经济代理。这

使代理能够根据理性分析和情感因素的结合做出决策,从而更真实地模拟经济活

动和市场行为。

此外,赵等人[273]研究了 LLM 类代理在模拟环境中的竞争行为,展示了代理之

间的竞争如何导致创新策略的出现和性能的提高。他们提出了 CompeteAI,这

是一个模拟虚拟城镇的框架,餐厅代理在其中争夺顾客,揭示了竞争如何驱使代

理不断调整和改进他们的策略,与既定的社会学和经济学理论保持一致。

从传统的模拟器到基于代理的模型,再到现在的 LLM 授权代理的演变标志着经

济模拟领域的重大进步。LLM 与 ABM 的结合为更现实、更适应经济活动的建

模提供了一条有希望的途径,捕捉了推动市场和经济的因素的复杂相互作用。这

种混合方法不仅增强了我们对经济动态的理解,还为预测和政策分析提供了强大

的工具。

3.5.3 ⾃动化财务流程

LLM 与财务流程的集成改革了财务任务的自动化方式,增强了工作流程生成和

战略规划的能力。这些应用程序简化了操作,并为复杂的财务任务提供了强大的

解决方案。

一个值得注意的应用程序是 FlowMind [274],提出了一种使用 LLM 自动化财

务工作流的创新方法。FlowMind 利用 GPT 等模型的功能来动态生成工作流,

解决了依赖预定义任务的传统机器人流程自动化的局限性。该系统使用结构化的讲座配方为 LLM 推理提供可靠的 API,从而缓解幻觉等问题并通过避免与专有

代码直接交互来确保数据隐私。FlowMind 包含一个反馈循环,允许用户检查生

成的工作流的高级描述并进行调整,从而增强系统的适应性。该方法使用 NCEN

QA 数据集进行了演示,该数据集是评估金融问答任务中工作流生成的基准,

FlowMind 的表现明显优于传统方法。该框架展示了 LLM 在金融服务中自动化

复杂、自发任务的潜力,同时保持数据的完整性和安全性。

另一个应用程序是 AUCARENA [275],通过评估拍卖环境中的战略规划和执行,

来评估 LLM 代理的战略推理能力。在价格上涨的拍卖中,像 GPT-4 这样的

LLM 代理会相互竞争,管理预算并实时调整策略。利用信念-愿望-意图模型,代

理会根据拍卖发展情况更新信念、调整愿望并重新规划。此设置可以详细分析

LLM 代理如何在竞争环境中管理资源、坚持目标和适应新信息。研究表明,LLM

代理,尤其是 GPT-4,在战略规划和资源管理方面非常有效,尽管有时不如更简

单的方法表现更好,这凸显了 LLM 设计有待进一步改进的领域。AUCARENA 展

示了 LLM 在复杂竞争场景中增强决策过程的潜力。

3.5.4 多智能体系统

在财务分析中使用多智能体系统可利用 LLM 的优势来提高财务策略的稳健性

和准确性。多智能体系统通过模拟各种智能体交互并提供更全面的任务分析来提

高交易绩效。TradingGPT [276]以其专为金融交易设计的创新多智能体框架为

例,展示了这种方法。它将记忆分为三个不同的层:短期、中期和长期,每个层

都由与人类认知过程相匹配的自定义衰减机制控制。在 TradingGPT 中,智能体

可以参与智能体之间的沟通和辩论,从而增强其决策能力。每个智能体都配备了

个性化的交易角色,例如风险寻求、风险中性和风险规避特征,这些特征丰富了

观点的多样性并提高了决策的稳健性。通过利用分层记忆处理和一致的信息交换,

该框架表现出对历史交易和实时市场线索的增强适应性,从而显着增强了自动交

易结果。除了交易任务之外,SocraPlan [277]利用多智能体推理和 LLM 实现有

效的企业规划。该框架进行全面的市场研究、客户分析、产品使用分析和销售策

略制定。通过将人类洞察力与人工智能能力相结合,SocraPlan 增强了企业规划,

使企业能够制定既创新又基于详细市场分析的战略。SocraPlan 采用多智能体架

构,其中每个智能体专注于企业规划的不同方面,例如竞争分析、客户细分或趋

势预测。这些专业智能体相互协作,提供市场的整体视图,帮助企业做出明智的

战略决策。

多智能体系统还有利于分析金融情绪或文本信息,这是市场分析和战略制定的关

键组成部分,正如我们在第 3.1 节和 3.2 节中讨论的那样。HAD 就是一个例

子 [278],表示异构代理讨论,使用专门的代理来处理 FSA 中常见的不同类型的

错误。该框架确保每个代理都专注于特定的错误,例如讽刺、方面不匹配和时间

表达,从而使系统能够抵御情绪分析中的常见陷阱。HAD 框架在多个数据集上

的准确率和 F-1 分数方面表现出显著的提升,证明了其在完善金融文本情绪分

析方面的有效性。另一个例子是[279],它引入了一个多代理框架,可以自动验

证贷款申请和银行对账单之间的信息,该框架由 Llama 3 等开源模型和 GPT-4 等闭源模型提供支持。尽管运营成本较高,但这种方法比人工审核更经济、更快

捷,为结构化财务审计和合规提供了可靠的解决方案。

此外,多智能体系统还可用于金融市场的监控和异常检测 。Park [220]引入了一

个复杂的多智能体框架,旨在改进对金融数据异常的验证和解释。该框架采用了

一个专门的 LLM 智能体网络,每个智能体专注于不同的任务,例如数据转换、

基于 Web 的专家分析、机构知识的利用、交叉检查和报告合并。这种协作方法

提高了异常检测的效率和准确性,减少了人工验证的需要。通过将这个框架应用

于标准普尔 500 指数,该研究证明了异常检测的显著改进,表明基于 LLM 的

智能体可以自主准确地识别和解释金融市场数据中的异常,从而支持更有效的金

融市场监控和决策

除了多智能体系统之外,智能体还可以以自主的方式与自身交互。280] . 自我反

思大语言模型框架 SEP [281]的意思是总结-解释-预测,它通过生成可解释的股

票预测来满足这一需求。SEP 将语言自反思代理与近端策略优化 (PPO) 相结合,

以提供自主且可解释的预测。该框架允许代理自我反思其决策过程,确保预测不

仅准确而且可解释。通过增强股票预测的可解释性,SEP 提高了投资者和分析师

的准确性、透明度和可信度。

总之,将 LLM 整合到基于代理的金融建模中,为交易、投资、财务分析和经济

模拟提供了重大进步。这些应用证明了 LLM 在增强决策、战略制定和市场分析

方面的多功能性和有效性。该领域的未来研究有望进一步完善这些系统,提高其

在不断发展的金融格局中的准确性、效率、可信度和适应性[282],

[

283],

[

284]。

3.6 其他应⽤

云计算可以与 LLM 集成,以提高整个金融部门的可扩展性、效率和成本效益。

如前几节所述,LLM 的高级 NLP 功能正被用于自动化复杂流程、改善客户互动

并支持银行决策。在云计算框架中使用无服务器架构可以为部署这些 AI 模型提

供可扩展且高效的平台,从而无需传统的服务器管理。285]。通过利用 LLM 和

无服务器计算之间的协同作用,金融机构可以增强运营弹性、确保法规遵从性并

保持供应商独立性。实际实施,例如 Kore.AI 和 Devin 框架,已经证明了这种

集成的变革性影响。随着金融行业的不断发展,在云计算中战略性地使用 LLM

有可能推动重大创新、运营效率和以客户为中心[286]。

表二:金融应用大语言模型基准。4 数据集、代码和基准

4.1 数据集

本调查论文中使用的数据集涵盖了广泛的金融领域和任务。这些数据集对于训练

和评估特定金融任务(如情绪分析、问答、关系提取和数值推理)的模型至关重

要。几个广泛使用的数据集包括:

  • 金融短语银行(FPB) [302]:这是一个由带有情感标签的金融短语组成

的数据集。由于其详细且领域特定的注释,它被广泛用于金融背景下的情

感分析。

  • 金融问答与意见挖掘(FiQA)[303]:该数据集专注于基于方面的情绪分

析和基于观点的问答。它包括金融新闻标题和微博,并标注了情绪和方面

类别。该数据集旨在挑战需要从金融文本中提取细粒度情绪和观点的模型。

  • FinQA [304]:专为对财务数据进行数字推理而设计的数据集。FinQA 包

括需要理解和处理财务报告中的数字信息的问题。它强调模型需要执行涉

及财务指标和计算的复杂推理任务。

其他数据集,如 ECTSum [305] , FiNER [306] , FinRED [307] , 重新定

义 [117] , FinSBD [308]和 CFLUE [309]为各种特定的金融 NLP 任务做出贡献。

这些任务包括收益电话会议摘要、命名实体识别、关系提取和金融语言理解评估。

总的来说,这些数据集为开发和基准测试金融应用中的 LLM 提供了坚实的基础。

4.2 基准和代码

此外,我们概述了用于评估金融领域 LLM 绩效的综合基准。强大的基准至关重

要,因为它们提供了标准化的措施来客观地比较模型,确保金融文本理解和预测

的可靠性和准确性。这种系统评估促进了 LLM 应用的透明度、可重复性和持续

改进。共享代码和方法可促进协作,推动创新和在现实金融场景中的实际实施。

该领域的一个著名作品是 FLUE [23],表示金融语言理解评估,解决了金融文本

提出的独特挑战。它是一套全面的基准测试,旨在评估语言模型在各种金融 NLP

任务上的表现。FLUE 包含五个任务:使用 FPB 数据集的金融情绪分析、基于

黄金新闻标题数据集的新闻标题分类、使用金融协议数据进行命名实体识别、使

用 FinSBD 数据集的结构边界检测以及使用来自 FiQA 挑战的数据进行问答。

此外,本文还介绍了 FLANG-BERT 和 FLANG-ELECTRA,这两个模型专门针对

金融数据进行训练,使用一种新颖的预训练方法,该方法结合了金融关键字和短

语以实现更好的掩蔽,以及跨度边界和归档目标。我们在第 2 节中介绍过。这些

基准测试涵盖了对金融 NLP 至关重要的一系列任务,为评估金融语言模型的有

效性提供了一个强大的平台。貔貅 [二十七]代表了该领域的最新发展,引入了一个综合框架,其中包括一个名

为 FinMA 的金融 LLM、一个大规模多任务指令数据集和一个名为 FLARE(金

融语言理解和预测评估基准)的整体评估基准。PIXIU 的特点是其开放资源,使

所有组件(包括模型、指令调整数据和基准)都公开可用,以促进透明度和进一

步研究。PIXIU 中的指令调整数据涵盖各种金融任务和模态,包括文本、表格和

时间序列数据,确保全面的模型训练。FLARE 基准在四个金融 NLP 任务(情绪

分析、新闻标题分类、命名实体识别和问答)和一个金融预测任务(股票走势预

测)上评估模型,总共涵盖九个数据集。这种广泛的评估可以全面评估模型处理

各种金融数据的能力,与以前仅关注 NLP 的基准相比,它提供了更全面的基准。

此外,还开发了各种其他基准来评估 LLM 在各种金融任务上的表现。这些基准

与我们在前几节中讨论的实际应用密切相关,包括语言任务、情感分析、数值推

理和综合财务分析。例如,Li 等人。[289]探索大语言模型在金融文本分析中的

有效性。MultiLing 2019 [294]和 BizBench [290]评估模型总结财务叙述和在商

业和金融背景下进行定量推理的能力。对于可解释的财务预测,像 AlphaFin 这

样的基准测试 [288]和 FinanceBench [293]评估股票趋势预测和金融问答模型。

使用 DocMath-Eval 等基准测试评估数值推理能力 [291],测试模型解释和计算

长 文 档 中的复杂 财 务数据的能力。综合基 准 测 试 如 R-Judge [295] 和

EconLogicQA [292]专注于评估风险意识、金融决策的安全性以及经济背景下的

顺序推理。这些基准共同为评估大语言模型在金融应用中的多种能力提供了有希

望的发展,确保模型在广泛的任务范围内得到测试。

语言的影响: 除了上述基准之外,语言对金融大语言模型表现的影响已成为另

一个感兴趣的话题,并得到了广泛的探索。这项研究通常侧重于为特定语言创建

基准或比较不同语言的模型性能,以了解它们在不同语言环境中的有效性。

目前已经开发了多个基准来评估中国金融领域的情绪分析、命名实体识别、关系

提取和金融新闻摘要等任务的模型。BBT -Fin 等基准 [21]和 CFBenchmark [296]

旨在提供针对中文文本语言和金融细微差别的综合数据集和评估框架。同样,

FinEval [299]和SuperCLUE-Fin [301]专注于更广泛的金融任务,通过解决合规、

风险管理和投资分析等理论知识和实际应用来推动中国金融 NLP 的发展。

在日本, Hirano 开发的基准[297]评估模型在情绪分析、日本注册会计师 (CPA)

考试的审计任务和财务规划师考试问题等任务上的表现。该基准提供了一个强大

的框架来评估模型对日语金融文本的熟练程度。

此外,还有几项研究探讨了双语能力,以检验不同语言之间的金融大语言模型的

表现。张等人。[298]重点关注西班牙语和英语的比较,强调模型在处理和理解

这些语言的金融文本方面的挑战和有效性。胡等人。[300]将这种比较扩展到中

文和英文,深入了解模型在不同语言环境中的泛化和适应能力。

这些特定语言的基准和比较研究对于理解语言对金融大语言模型的影响至关重

要。它们确保模型能够准确地处理和解释各种主要语言的金融信息,从而扩大其

在全球金融市场的适用性和有效性。5 挑战与机遇

尽管将 LLM 集成到金融应用中具有众多优势(如第 2.3 节所述),但必须承认

并应对这种创新方法带来的挑战。除了这些挑战之外,在金融应用中进一步开发

和改进 LLM 也存在重大机遇。在本节中,我们将探讨在金融领域使用 LLM 所

面临的主要挑战和机遇,重点关注研究人员和从业人员如何合作克服障碍并为数

据驱动的决策开辟新的可能性。

5.1 数据问题

处理高维金融数据: 虽然 LLM 在处理和理解长文本序列中的上下文信息方面

表现出了非凡的能力,但它们在处理高维金融时间序列数据方面的表现仍不确定。

金融数据的复杂性和高维性带来的独特挑战为进一步的研究和探索提供了机会。

通过研究将 LLM 的上下文理解与处理高维数据的专门技术、特定领域的预训练

策略以及 LLM 与其他机器学习技术的集成相结合的混合模型的潜力,研究人员

可以开发强大的 AI 模型,专门用于分析和理解金融时间序列。这些进步最终可

以提高 AI 在金融领域的性能和适用性,从而实现更准确的预测、更好的风险管

理和改进的决策过程。

数据污染:数据污染可能是一个多方面的挑战,可能会严重影响这些 LLM 模型

的性能和可靠性。数据污染的第一个方面涉及存在不准确、误导或不相关的数据,

例如垃圾广告或故意传播的错误信息,这些数据已被输入到此 LLM 模型中。这

种数据污染会严重降低 LLM 的性能,导致决策失误和财务模型完整性受损,尤

其是在使用基于云的 LLM (如 ChatGPT)时,因为污染会蔓延到整个训练环境。

此外,数据污染的第二个越来越重要的方面是数据越来越倾向于由 LLM 自己生

成,而不是由人类生成。这种现象引发了人们对用于训练这些模型的数据的质量

和相关性的担忧。例如,如果财务报告是由 LLM 生成的,那么模型本质上就是

从自己的输出中学习,这可能会导致学习越来越僵化和不灵活。这些模型可能无

法捕捉到人类表达的真实意图和细微差别,从而导致生成内容的质量下降。

为了解决这个问题,各大公司都极力强调收集包含真实人际互动的高质量、多样

化数据集。减轻 LLM 生成的数据污染影响的一个潜在解决方案是开发评估方法

来评估 LLM 所创建数据的意义。在这种情况下,我们可以提高这些模型的性能

和可靠性,最终实现更准确、更可靠的财务分析和预测。

信号衰减: 在快速发展的金融世界中,LLM 被广泛用于生成交易策略,这带来

了一个独特的挑战:信号衰减。随着越来越多的市场参与者采用 LLM,这些策

略的有效性可能会随着时间的推移而减弱,从而导致有利可图的市场信号耗尽。

然而,这一挑战也为开发自适应 LLM 提供了机会,这些 LLM 可以不断从新数

据中学习,并与市场条件一起发展。通过利用其处理大量财务信息和识别新兴模

式的能力,这些模型可以通过不断的再训练和验证来保持其有效性。5.2 建模问题

推理速度和成本:由于 LLM 的计算需求很高,因此平衡快速且经济高效的模型

推理需求与性能要求是一项重大挑战。这有时会导致推理成本高且速度较慢,尤

其是在处理大型数据集时。然而,模型优化和硬件方面的进步为降低这些成本和

提高速度提供了令人兴奋的机会。这使得 LLM 更易于访问且更适用于各种金融

应用,从而促进更高效的资源利用和 LLM 技术在金融行业的更广泛采用。

例如,正如 Ding 等人在论文中所讨论的混合推理方法。[310]建议使用路由器根

据预测的查询难度和所需的质量级别动态地将查询分配给小型或大型模型。该方

法旨在有效地平衡成本和性能之间的权衡。可以对路由器进行微调,以确保较小

的、较便宜的模型处理较简单的查询,而将较复杂的查询定向到较大、更强大的

模型。这种方法可以显著节省成本——对大型模型的调用最多可减少 40%——

而不会影响响应质量。这种优化可以使 LLM 在精度和速度至关重要的金融应用

中更具经济可行性,从而提高其在各种金融服务和运营中的采用和实用性。

金融回测中的未来前瞻偏差: 使用 LLM 回测金融模型面临着重大挑战,因为

存在未来前瞻偏差的风险[311]。这种偏差发生在模型在训练过程中无意中纳入

了未来的信息,导致过于乐观和误导性的回测结果。因此,模型的可靠性和预测

准确性受到质疑,因为它在看不见的实时数据上可能表现不佳。解决这个问题需

要仔细处理数据并实施强大的验证技术,以确保回测过程的完整性。

尽管未来前瞻性偏见带来了挑战,研究人员可以探索创新解决方案来解决这一问

题,并设计出有效减轻其影响的 LLM。正如 Kim 等人所讨论的那样,其中一种

简单的方法就是 [235] 的方法是使用 LLM 无法识别的匿名数据。这确保了

LLM 在处理特定公司问题时无法利用其预先训练的记忆。但是,仍然应该实施

强大的验证技术。作者进行了正式分析,以进一步排除对前瞻偏差的担忧。

同 样 , 最 近 在 [312] 专 门 设 计了一系列时间点 LLM , 称 为时间机器

GPT ( TiMaGPT )。这些模型在保持时间完整性的数据集上进行训练,确保它们

对未来的事实信息和语言变化一无所知。通过避免在训练期间纳入未来信息,

TiMaGPT 模型可以为时间序列预测和财务建模中的其他动态环境提供更准确、

更可靠的见解。模型和训练数据集的可用性进一步提高了结果的透明度和可重复

性。LLM

财务输出中的幻觉: 在各种财务任务中使用 LLM 生成的内容引发了人们对合

法性和可靠性的重大担忧。财务报告受严格的法律和监管标准的约束,不准确的

信息可能会给组织带来严重后果。LLM 的一个主要问题是,由于它们在大量数

据上进行训练,因此可能会生成虚假、幻觉或事实不正确的陈述。确保 LLM 生

成的内容符合法律标准且无错误是一项复杂的工作,需要仔细考虑和监控,尤其

是当输出结果可能不会像完整的财务报告那样受到严格审查时。机器人生成的财

务内容缺乏标准化的框架和指导方针,这可能会使这一过程更加复杂。为了确保 LLM 生成的财务内容的准确性和可信度,利用 GenAudit 等先进工具

[313]带来了重大机遇。GenAudit 旨在协助对基于文档的任务的 LLM 响应进行

事实核查。它通过修改或删除不受支持的声明来建议编辑,并提供支持事实的证

据。人工评分员的综合评估证明了 GenAudit 在检测来自不同领域的各种 LLM

输出中的错误方面的有效性。该系统旨在提高错误召回率,同时最大限度地减少

对精度的影响,确保大多数错误都被标记和纠正。LLM

响应的不确定性估计: 估计不确定性并为模型预测提供置信区间在金融中至关

重要,因为 LLM 输出本质上是从分布中抽样的,而不是确定性的。这意味着多

次向 LLM 询问相同的问题可能会产生不同的答案,有些样本可能存在重大错误。

对于财务决策或预测,依赖单个样本可能会产生误导。此外,在实际应用这些预

测时,误差范围仍然未知,这使得风险控制具有挑战性。因此,为了管理风险,

有必要对 LLM 输出进行不确定性估计,并为其预测建立置信区间。这种方法有

助于控制错误并降低风险。开发复杂的不确定性量化方法可以提供更可靠的置信

区间,从而增强金融领域的风险管理和决策。它使利益相关者能够根据 LLM 预

测做出更明智、更自信的决策。

5.3 基准测试

交易策略评估: 除了上述 LLM 模型广泛采用导致的信号衰减之外,使用 LLM

构建交易策略的另一个重大挑战在于评估过程。困难在于,当前用于测试 LLM

生成信号的基准是在 LLM 出现之前构建的。因此,环境发生了变化,使得有效

评估这些 LLM 生成信号的有效性变得具有挑战性。曾经适合在 LLM 出现之前

的环境中评估交易信号的基准可能不再适用,因为 LLM 的广泛可用性改变了格

局。环境的这种变化不是逐渐衰减,而是根本性的转变,需要一种新的评估方法。

为了解决这个问题,开发适用于 LLM 并与当前市场状态保持一致的新基准至关

重要。如果没有这样的基准,就很难准确评估 LLM 生成信号的性能,从而导致

对其有效性的不确定性。因此,除了传统的信号衰减问题外,还应认识到并解决

环境变化带来的评估困难,以便有效地利用 LLM 构建交易策略。

可解释性:金融行业使用的 LLM 缺乏可解释性,这是一个重大挑战。利益相关

者需要清楚地了解这些模型如何做出决策,以建立信任并有效利用其产出。开发

提高 LLM 透明度和可解释性的方法是一项持续不断的努力[209,152]。通过投

资旨在提高 LLM 可解释性的研究,金融机构可以在其 AI 驱动的流程中建立信

任和透明度,从而做出更好的决策并增加 LLM 在金融领域的采用率。正如

PloutosGPT 中所述[十三]中,使用两个可量化的指标——忠诚度和信息量——

来验证所生成原理的可解释性的质量。忠诚度衡量模型响应中的事实是否基于给

定的知识或可以从给定的知识中推断出来,而信息量衡量模型响应中包含的信息

量。开发解释模型决策的工具可以帮助利益相关者理解和有效利用人工智能产生

的见解。5.4 道德问题

良性对齐: 确保大语言模型输出的内容符合社会价值观并避免有害的建议是一

个关键问题。[314]。这涉及确保输出不仅符合道德标准,也符合法律法规,避免

可能导致负面行动的建议。这个问题与攻击预防和安全措施都有交集。挑战在于

将 LLM 的目标与良性和道德目标相结合,因为不一致的模型可能会产生意想不

到的、潜在的有害后果。因此,确保 LLM 在道德界限内运作并遵守监管标准至

关重要。这里的机会是主动将 LLM 目标与道德标准相结合,以降低风险并确保

这些模型做出积极贡献,特别是在金融领域。这包括制定道德 AI 框架[315,316]

在金融领域的应用,可以促进信任和合规。

法律责任:随着 LLM 在金融决策中发挥越来越重要的作用,法律责任和问责问

题也变得更加突出。这些模型的复杂性及其被滥用的可能性,在出现问题时确定

责任时带来了独特的挑战。建立明确的框架和法规来解决这些问题至关重要。为

LLM 在金融领域的使用制定明确的法律框架对于提供确定性和培养利益相关者

的信心至关重要。通过明确责任和问责界限,这样的框架可以促进这些技术的广

泛采用,同时确保负责任地使用这些技术。该框架应在 LLM 被滥用或产生意外

后果的情况下分配责任,为 LLM 在金融应用程序中的开发、测试和部署制定标

准,并在 LLM 造成财务损害的情况下提供警告和赔偿机制。

安全和隐私: 鉴于数据泄露和合规违规带来的重大威胁,财务数据的安全和隐

私极其重要。在金融领域部署 LLM 在维护强大的数据保护措施和保护敏感信息

方面面临着独特的挑战。然而,网络安全的进步可以加强 LLM 使用的金融数据

的安全性和隐私性。通过实施强大的安全协议,我们可以降低数据泄露的风险并

确保遵守隐私法规,从而建立信任并保护敏感信息。为了进一步防止数据泄露,

尤其是使用基于云的 GPT 模型,在本地环境中处理机密数据至关重要。这种方

法可以最大限度地降低违规风险,同时仍能利用 LLM 的功能。随着开源模型的

日益普及,组织现在可以在其本地基础设施中使用 LLM,确保其财务数据的安

全性和隐私性,同时受益于这些模型提供的高级功能。

了解激励措施: 金融行业竞争激烈,再加上巨额资本成果,因此必须仔细研究

推动 LLM 开发和应用的激励措施。随着大语言模型学位在包括金融在内的各个

领域变得越来越普遍,考虑其对个人和组织(包括政府机构)的潜在影响至关重

要。

人们对人工智能的道德担忧日益加剧。计算机协会 (ACM) 等专业组织[317]制

定了道德和行为准则来指导 AI 技术的开发和使用。然而,与医学、法律或工程

等受监管的职业不同,这些职业的从业者受专业资格的约束,违反道德标准可能

会面临后果,而 LLM 开发人员则不受类似的监督。缺乏正式的问责机制对确保

LLM 开发人员遵守既定的道德准则构成了挑战。此外,LLM 本身在进行推理和

决策时可能会以不透明的方式运作,从而为发现和理解其所有潜在动机(尤其是

可能导致负面道德影响的动机)设置了障碍。为了解决这一问题,迫切需要提高 LLM 推荐背后的激励机制的透明度。例如,

基金行业一直在努力明确报告基金经理的管理费。LLM 也应采取类似的方法,

系统地评估其对利益相关者的影响。欧洲已采取积极措施,通过了《人工智能法

案》[318],采用“基于风险的方法”来监管高风险应用并减轻种族偏见等潜在危害。

该框架凸显了在有效监管与促进创新之间取得平衡的挑战。

随着 LLM 不断发展并融入金融行业,了解和协调激励措施对于确保其负责任和

有益的应用至关重要。这可能涉及多种方法,包括制定和执行行业特定的道德准

则和最佳实践、了解用于训练系统的数据的细目分类、促进 LLM 开发和推荐流

程的透明度、实施问责机制以验证是否符合道德标准、鼓励 LLM 开发人员、领

域专家、伦理学家和监管机构之间的合作,以及教育利益相关者了解 LLM 的能

力、局限性和潜在风险。

最后,自然语言会出现在各种情况下:通知、说服、娱乐、教育等等。因此,我

们希望大语言模型能够应用于这些结构中。虽然人类拥有出色的情境感知能力,

但看看大语言模型是否能够在这方面发展自己的技能将会很有趣。随着金融行业

越来越多地采用大语言模型,采取积极主动和协作的方式来解决道德问题、协调

激励措施并确保负责任的应用对于利用这种变革性技术的好处同时减轻潜在危

害至关重要。

6 结论

本调查全面概述了大语言模型在金融领域的应用,重点介绍了其在增强各种金融

任务(如语言任务、情绪分析、金融时间序列分析、金融推理和基于代理的建模)

方面的能力。大语言模型通过高级上下文理解和实时分析,在提高金融流程的效

率和准确性方面表现出巨大的潜力。

尽管大语言模型具有广阔的应用前景,但仍需要解决数据隐私、可解释性和计算

成本等挑战,以确保大语言模型在金融领域的负责任和有效部署。通过总结大语

言模型在金融应用中的现状、优势和局限性,本调查旨在激发进一步的研究和创

新。随着研究的不断发展,我们希望本评论将鼓励更多地探索和讨论大语言模型

的潜力和局限性,推动其融入金融领域,以实现更具战略性的投资和高效的决策。

致谢

这项工作部分由普林斯顿语言与智能研究所提供资助。XD 感谢牛津曼氏量化金

融研究所的支持。

热门文章

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

版权所有@2023 ​深圳市人工智能产业协会、深圳市宝安区低空无人系统产业协会       技术支持:​深圳市网新新思软件有限公司       粤ICP备19099358号-2       粤公网安备44030502010453号

