波士顿：扩展生成式人工智能在信息服务中应用的秘诀| 观点与方案

作者：chnmc编译来自：波士顿次 2024-05-14

波士顿：扩展生成式人工智能在信息服务中应用的秘诀

本文探讨了信息服务提供商在扩展生成式人工智能（GenAI）产品时面临的挑战，并提供了克服这些挑战的策略。

要点

信息服务市场中的成式人工智能(GenAI )产品正在迅速增长，但许多公司在规模化开发工具方面遇到了困难。BCG 对信息服务提供商进行的一项新调查显示，成功扩展的四个关键障碍是：输出准确性要求、组织能力或容量、系统集成以及数据准备和管理。为了克服这些挑战：

设置一个满足准确性目标并限制负面速度和成本影响的阈值，并迭代地朝该目标努力。
通过考虑价值潜力、组织准备情况和复杂性，确定 GenAI 产品开发的用例优先级。
为了确保 GenAI 解决方案的最佳运行，从早期开始开发各种组件，重点关注互操作性和适应性。
通过创建元数据、预处理非结构化数据和以 GenAI 摄取就绪格式存储数据来提高数据准备情况。
通过与拥有 GenAI 模型训练数据完全权利的提供商合作；建立流程检查，如知识产权风险审查和用户协议；并尽早并经常监测进展来降低风险。

对于传统信息服务提供商来说，生成式人工智能（GenAI）代表了推动可持续优势的前所未有的机会。通过扩展利用其大量数据和内容资产的解决方案，公司可以帮助客户利用 GenAI 的力量，同时为自己创造新的收入。金融信息、信贷、出版和其他信息服务领域的领先企业已经开始看到 GenAI 的大规模优势。

但对于绝大多数公司来说，充分发挥 GenAI 的潜力具有挑战性。BCG 最近的一项跨行业调查显示，66% 的领导者对其在人工智能和 GenAI 方面的进展感到矛盾或不满意。信息服务提供商也是如此，他们中的许多人创建了概念验证，却发现开发面向客户的产品比预期的成本更高、资源更密集。与 GenAI 输出的准确性、组织能力和能力、系统集成和数据准备有关的问题是成功扩展的障碍之一。

解决这些挑战并成功扩展 GenAI 的提供商将能够进入快速增长的市场。据 BCG 分析，目前仅 GenAI 金融服务信息产品的市场机会就约为 50 亿至 60 亿美元，预计到 2026 年将增长至 150 亿美元。

GenAI 大规模的前景

迄今为止，GenAI 已被广泛用作公司提高内部生产力的一种方式，有些公司已经使用它来推动端到端转型。但对于提供金融、商业和可持续发展数据等信息产品的公司来说，GenAI 可以成为提高最终客户生产力的工具。这种新的收入来源有助于证明对新兴技术的早期投资是合理的。

虽然大多数传统信息服务提供商都了解这一机会的价值，但很少有人能够成功扩展 GenAI。为了了解原因，我们在 2024 年初对来自具有扩展 GenAI 解决方案经验的提供商的 100 名专业人士进行了调查。（请参阅“关于调查”。）

超过一半的受访者表示，构建 GenAI 产品比预期更耗时、成本更高。最常提到的四个挑战是：准确性要求、组织能力或容量、系统集成以及数据准备和管理。（参见附件 1。）

关于调查
2024 年初，BCG 对来自全球信息服务提供商的 100 名金融信息领域的技术、数据和 IT 专业人士进行了调查；信用、风险和合规性；商业信息;和其他垂直领域。在这些受访者中，66 人被认为经验丰富：他们已经开始或已经成功扩展 GenAI 解决方案。其余 34 家被认为缺乏经验，因为他们已经进行了概念验证或试点，但尚未尝试扩展解决方案。

secrets-to-scaling-genai-in-information-services-ex01.png

克服关键的扩展障碍

通过与客户的合作，我们收集了各种方法来解决成功扩展 GenAI 的四大障碍。

秘密#1：为了满足准确性要求，设置准确性阈值并迭代地实现该目标。

GenAI 输出的准确性要求是最常被提及的扩大解决方案规模的障碍。然而，尽管有很多方法可以使现成的 GenAI 模型更加准确，但确定要实施哪些技术并不简单。

一个关键问题是，准确性的提高通常是以延迟和成本为代价的。使问题变得复杂的是，解决方案任何部分的更改都可能在其他地方产生连锁反应。有时这些影响可能是积极的，例如，只需在提示中插入“请”一词即可显着提高模型输出的准确性。但通常情况下，更改（例如添加额外的空格）会降低准确性。由于 GenAI 解决方案每次都可以提供不同的结果，因此任何变化的结果，无论大小，都可能难以预测。

考虑到这些限制，设置明确的准确性阈值是避免时间和资源过度投资的关键第一步。对于使用 GenAI 帮助撰写报告的情况，80% 的准确率（与典型的人类作家一样好）可能就足够了。这种类型的解决方案可以通过成本较低的模型来实现（例如 Chat GPT-3.5 而不是 GPT-4）。但对于需要接近 100% 准确度的用例（例如合同审查或信用评分），预测性或确定性 AI 模型可能需要与 GenAI 一起使用，至少目前是这样。

一旦确定了阈值，下一步就是应用可能有助于实现这一目标的技术。我们建议从最简单的技术开始，例如提示工程和上下文注入，即使许多开发人员不熟悉它们。（参见图表 2。）如果这些技术未达到阈值，组织应考虑更复杂和更昂贵的方法，例如微调或训练新模型。审查输出的“人在循环”过程也可以提高准确性。

这里的关键是迭代，找到正确的变更组合，以放大整个解决方案的力量并达到准确性阈值，同时限制对速度和预算的负面影响。

secrets-to-scaling-genai-in-information-services-ex02.png

秘密#2：为了管理组织能力和容量，请仔细确定用例的优先级。

很少有组织有能力开发他们想要构建的每一种 GenAI 产品。BCG 最近进行的跨部门高管调查显示，对其组织在人工智能和 GenAI 方面的进展表示不满的高管中有 62% 表示人才和技能短缺。

因此，为了充分利用 GenAI 的机会，公司确定要关注哪些用例非常重要。资源需求应由三个考虑因素驱动，即价值、就绪性和复杂性。为了成功扩展 GenAI 产品，公司应该能够对以下问题回答“是”：

价值潜力：该解决方案的优势是否足以推动大量使用和采用？
组织准备情况：我们的团队准备好、愿意并且能够构建此解决方案吗？团队有领导支持吗？
方法的复杂性：所提出的方法是我们可以实现和维护的吗？

公司必须抵制仅根据其中一两个维度来确定优先级的冲动。仅关注价值潜力，公司可能会承担超出其准备的技术复杂性。仅关注组织准备情况，公司可能会开发出市场需求不够强劲的产品。只关注复杂性的公司可能会构思出有价值且可行的解决方案，但可能缺乏执行所需的领导支持。

一流的公司在这些维度上使用平衡计分卡，将精力和资源集中在正确的地方。一旦公司取得了一些早期的成功，他们通常就能够扩展他们在组织内建立的技能和能力，并构建日益复杂的解决方案。

例如，一家金融信息服务提供商构建了检索增强生成（RAG）解决方案来帮助回答有关公司财务业绩的自由文本问题。该公司花了九个月的时间来构建该产品，而构建采用类似方法的后续解决方案只用了一半的时间。

秘密#3：优化系统集成，以互操作性和适应性为目标。

人们很容易忽视这样一个事实：除了 GenAI 模型之外，GenAI 解决方案还需要许多组件。前端、数据、企业核心系统、基础设施和安全都必须进行开发，以便在现在和将来都能实现最佳运行。公司应该尽早开始开发这些其他组件，重点关注两个主要考虑因素。

互操作性。为了支持高质量、安全的数据共享，特定 GenAI 解决方案的组件需要与组织现有的技术堆栈及其其他 GenAI 产品进行互操作。这有助于确保不同的解决方案可以相互“对话”，从而实现具有凝聚力的工作流程。

适应性。鉴于当今技术周期的快节奏，确保解决方案组件能够以经济高效的方式进行大规模更新至关重要。因此，公司应该构建具有标准化 API 和服务的组件，以便在可用时可以轻松更换以进行升级。然后可以使用标准解决方案参考架构来指导企业架构原则和标准的一致性。

通常，公司需要对解决方案进行实质性更改。例如，当使用现成的模型时，可能需要在基础模型可用时对其进行“改造”或切换到新版本。当 GPT-4 出现时，Chat GPT-3.5 的许多用户就是这么做的。在其他情况下，公司可能需要完全重建其解决方案，例如当新技术或工艺出现或战略转变需要采取不同的方法时（例如，从 RAG 解决方案转向微调模型）。尽管这些变化超出了我们通常认为的“应用程序维护”范围，但公司应该将它们视为 GenAI 产品持续维护周期的一部分。

秘密#4：为了确保稳健的数据准备和管理，掌握这些新技术并降低新风险。

为了构建能够有效利用公司数据资产的 GenAI 产品，组织需要做好数据准备。任何数据，无论是结构化还是非结构化，都需要干净、机器可读，并防止暴露风险。这意味着部署特定于 GenAI 解决方案的准备和管理技术。

我们对信息服务提供商的调查表明，数据准备度随着扩展经验的增加而增加：在扩展 GenAI 产品方面有经验的受访者中，三分之二表示数据准备度很高。相比之下，缺乏扩展经验的参与者中只有三分之一表示他们已做好数据准备。（参见图表 3。）

secrets-to-scaling-genai-in-information-services-ex03.png

组织可以采取以下步骤来改进数据准备和管理：

使用新技术准备数据。创建元数据、预处理非结构化数据以及以 GenAI 摄取就绪格式（例如矢量数据库）存储数据这三种技术都至关重要，因为它们有助于确保 GenAI 模型能够正确解释数据。经验丰富的公司更愿意采取这些步骤；培训可以帮助缺乏经验的团队加快速度。

缓解新风险。尽管信息服务提供商长期以来一直小心翼翼地保护其知识产权和数据，但 GenAI 产品引入了新的暴露途径。 IP 问题包括无意中部署在未经许可的专有数据上训练的模型，或选择保留专有公司数据的供应商来训练其模型等。数据暴露问题包括信息服务提供商自己的数据或客户数据的潜在泄露。

信息服务提供商用于降低 IP 和数据暴露风险的方法显然与其扩展经验相关。约 74% 的新手组织限制可在 GenAI 解决方案中使用的数据。虽然这种方法降低了风险，但它也限制了产品开发并限制了产品深度。

相比之下，经验丰富的组织会部署缓解实践来避免进行这种权衡。这些公司密切关注供应商的选择，例如，仅与能够证明他们对用于训练模型的数据拥有完全权利的供应商合作。此外，他们会做出谨慎的设计选择，例如在公司自己的领域内构建全部或部分解决方案，以便专有数据永远不会发送给第三方。这些公司还建立流程检查，例如知识产权风险审查和用户协议，并尽早并经常监控进展情况，以发现可能出现的任何问题。此类护栏使产品开发能够向前推进，同时降低与在 GenAI 解决方案中使用 IP 和数据相关的风险。

早期开始使用 GenAI 并正在获得关键扩展经验的信息服务提供商与那些观望的信息服务提供商之间已经出现了差距。现在是公司将 GenAI 产品推向市场并创造竞争优势的时候了，这种优势在适当的时候将变得无懈可击。

GenAI 的出现使现有信息服务提供商有机会以前所未有的方式利用其庞大的数据和内容资产。通过解决准确性、功能、系统集成和数据准备方面的挑战，公司可以充满信心地扩展其产品并实现这一卓越创新的承诺。