news 2026/6/9 22:15:21

导航成本与复杂性:思维混合 LLM 级联揭示了高效部署大语言模型的路径

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
导航成本与复杂性:思维混合 LLM 级联揭示了高效部署大语言模型的路径

原文:towardsdatascience.com/navigating-cost-complexity-mixture-of-thought-llm-cascades-illuminate-a-path-to-efficient-large-23291d1eda41?source=collection_archive---------5-----------------------#2024-03-06

https://medium.com/@yuval_domino?source=post_page---byline--23291d1eda41--------------------------------https://towardsdatascience.com/?source=post_page---byline--23291d1eda41-------------------------------- Yuval Zukerman

·发布于Towards Data Science ·5 分钟阅读·2024 年 3 月 6 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/535098db554b3f659cfd241166a5b1b7.png

图片来源:Joshua Sortino 在Unsplash

如果我告诉你,在不牺牲准确性的情况下,你可以节省 60%或更多的 LLM API 开销,你会相信吗?令人惊讶的是,现在你可以。

大型语言模型(LLM)现在已经成为我们日常生活的一部分。公司利用这项技术来自动化流程、改善客户体验、开发更好的产品、节省开支等。

托管自己的 LLM 非常具有挑战性。它们提供了广泛的功能,但运行成本通常很高。它们通常需要复杂的基础设施和大量数据。成本和复杂性是你使用提示工程的原因。你甚至可能使用检索增强生成(RAG)来改善上下文并减少幻觉。通过这两种技术,你将 LLM 的运行工作卸载给像 OpenAI、Cohere 或 Google 这样的公司。然而,将 LLM 的应用扩展到新的使用场景,尤其是使用最新的强大模型,可能会产生一个之前没有预料到的新成本。较弱的模型可能更便宜,但你能信任它们回答复杂的问题吗?现在,新的研究展示了如何节省开支,并获得与强大模型相媲美,甚至更好的 LLM 结果。

了解 LLM 级联

在追求降低 LLM 成本的过程中,研究人员转向了 LLM 级联的概念。在黑暗时代,也就是 ChatGPT 推出之前,谷歌和多伦多大学的一个团队定义了这个术语,指的是利用概率计算,通过多个 LLM 获得最佳结果的程序。

最近,FrugalGPT 论文将级联定义为将用户查询依次发送给一系列 LLM,从较弱到较强,直到答案足够好为止。FrugalGPT 级联使用专门的模型来确定何时答案达到了质量阈值,足够好。

一篇来自乔治梅森大学、微软和弗吉尼亚理工大学的最新论文《‘基于思维混合表示的低成本推理的大型语言模型级联’》提供了一种替代方案:一种可以判断答案是否足够好的方法,而无需微调另一个模型。

思维混合 LLM 级联

与使用多个 LLM 不同,‘思维混合’(MoT)推理只使用两个——GPT 3.5 Turbo 和 GPT 4。前者被认为是‘较弱’的 LLM,而后者则是‘较强’的 LLM。作者利用 LLM 的‘答案一致性’来判断 LLM 的回答是否足够好。当 LLM 对类似提示给出一致的回答时,说明它对答案有信心。因此,当较弱的 LLM 的回答一致时,就不需要调用较强的 LLM。相反,当 LLM 缺乏信心时,它们会给出不一致的回答。这时,就需要更强的 LLM 来回答提示。(注:你也可以选择任何较弱/较强的 LLM 组合。)

这些提示本身使用少量示例上下文提示,以提高 LLM 回答质量。这样的提示通过提供类似问题和答案的示例来引导 LLM 的回应。

为了改进模型推理并简化一致性测量,研究人员通过‘混合’两种提示技术,提出了一种新的推理任务提示方法:

论文还介绍了两种确定答案一致性的方法:

由于投票方法需要多个提示,因此当有预算来指导阈值时,它可能更为适用。

结论:思维混合帮助你节省成本

让我们看看 MoT 技术节省了多少成本,以及它对答案准确性的影响。

研究人员使用以下公式来计算提示成本:

结果非常显著:

在内部托管和管理大型语言模型(LLMs)带来了显著的挑战。它们带来了复杂性、高成本,并且需要大量的基础设施和数据资源。因此,对于希望利用 LLM 广泛能力的组织来说,LLM 呈现出实质性的障碍。这可能促使你转向托管的 LLM。然而,这种方法在扩展到新的应用场景时,往往给公司带来预料之外的成本增加和预算挑战。当整合最新的强大模型时,这一点尤为明显。为了避免这种命运,你面临一个新的困境:你能信任较弱且更实惠的模型吗?你能克服它们在处理复杂问题时的准确性顾虑吗?

LLM 级联与思维混合(MoT)提供了两项重要的进展:

  1. 相较于仅使用最新模型,能够实现显著的成本节省。

  2. 与最新模型相当的可验证结果。

这一突破为组织提供了一种实用且高效的方法,在 LLM 的强大能力与有效管理成本之间找到微妙的平衡。

Domino 的工作人员软件工程师 Subir Mansukhani 为这篇文章做出了贡献。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/6 16:25:07

AI副业新思路:用FLUX.小红书工具批量生成网红人像案例

AI副业新思路:用FLUX.小红书工具批量生成网红人像案例 你有没有刷过小红书,被那些“随手一拍就是大片”的素人博主吸引过?皮肤透亮、构图讲究、氛围感拉满——但你可能想不到,其中不少账号的封面图、首图、甚至整套内容图&#x…

作者头像 李华
网站建设 2026/6/6 15:59:14

全任务零样本学习-mT5中文增强版:电商文案批量生成实战案例

全任务零样本学习-mT5中文增强版:电商文案批量生成实战案例 在电商运营中,每天需要为上百款商品撰写标题、卖点、详情页文案、促销话术——人工编写不仅耗时耗力,还容易风格不统一、信息重复、缺乏吸引力。有没有一种方式,能用一…

作者头像 李华
网站建设 2026/6/9 20:09:15

REX-UniNLU Python开发大全:从入门到精通

REX-UniNLU Python开发大全:从入门到精通 1. 为什么你需要一个真正“开箱即用”的中文NLU工具 你有没有遇到过这样的情况:项目里突然需要从会议纪要里提取决议事项,从客服对话中识别用户投诉意图,或者从产品反馈里自动归类功能需…

作者头像 李华
网站建设 2026/6/9 19:48:44

mT5中文-base零样本增强模型行业落地:智能制造设备说明书增强

mT5中文-base零样本增强模型行业落地:智能制造设备说明书增强 在智能制造领域,设备说明书的编写和维护一直是个让人头疼的问题。工程师要反复核对技术参数、操作步骤和安全规范,既要保证专业准确,又要兼顾一线操作人员的理解能力…

作者头像 李华