大模型的 2024，这可能是最早的一篇年度总结文！

文章目录（点击直达）

从某种意义上说，2024 年不仅是技术突破的一年，更是行业走向成熟的重要转折点。

这一年，GPT-4 级别的模型不再罕见，许多机构都开发出了性能超越 GPT-4 的模型；这一年，运行效率显著提高，成本急剧下降；这一年，多模态 LLM，特别是支持图像、音频和视频处理的模型，变得越来越普遍。

技术的进步也带来了应用场景的繁荣。基于提示词的应用程序生成成为行业标配，语音对话和实时摄像头交互让科幻场景成为现实。当年末 OpenAI 推出 o1 系列推理型模型，开创通过优化推理阶段提升性能的新范式时，整个行业又向前迈进了一大步。

当地时间 12 月 31 日，独立 AI 研究员、Django 缔造者、Simon Willison 撰文回顾总结 2024 年大语言模型领域的重要事件，并列出了近 20 个关键主题、重要时刻和行业洞察。

以下为重点内容：

GPT-4 壁垒被全面打破：截至 2024 年底，已有 18 家机构的 70 个模型在 ChatbotArena 排行榜上的得分超过了 2023 年 3 月发布的原始 GPT-4。
顶级大模型的训练成本大幅降低：DeepSeek v3 仅需 557 万美元训练成本，便可达到与 Claude 3.5 Sonnet 等模型比肩的性能。
LLM 价格大幅下降：由于竞争加剧和效率提高，LLM 的运行成本大幅下降。例如，谷歌的 Gemini1.5Flash8B 比 2023 年的 GPT-3.5Turbo 便宜 27 倍。更低的成本将进一步推动 LLM 的普及和应用。
多模态视觉模型普及，音频和视频模型开始出现：2024 年，几乎所有主要的模型供应商都发布了多模态模型，能够处理图像、音频和视频输入。这使得 LLM 能够处理更丰富的信息类型，拓展了其应用领域。
语音和实时摄像头模式将科幻小说变为现实：ChatGPT 和 GoogleGemini 现在都支持语音和实时摄像头模式，用户可以通过语音和视频与模型进行交互。这将为用户提供更自然、更便捷的交互方式。
部分 GPT-4 级模型可在笔记本电脑上运行：得益于模型效率的提升，一些 GPT-4 级模型，例如 Qwen2.5-Coder-32B 和 Meta 的 Llama3.370B，现在可以在 64GB 内存的笔记本电脑上运行。这标志着 LLM 的硬件要求正在降低，为更广泛的应用场景打开了大门。
基于 Prompt 的应用程序生成已成为常态：LLM 现在可以根据 Prompt 生成完整的交互式应用程序，包括 HTML、CSS 和 JavaScript 代码。Anthropic 的 ClaudeArtifacts、GitHubSpark 和 MistralChat 的 Canvas 等工具都提供了这项功能。这一功能极大地简化了应用程序开发流程，为非专业程序员提供了构建应用程序的途径。
对最佳模型的普遍访问只持续了几个月：OpenAI 推出 ChatGPTPro 付费订阅服务，限制了对最佳模型的免费访问。这反映了 LLM 商业模式的演变，未来可能会出现更多付费模式。
“Agent” 仍未真正实现：“Agent” 一词缺乏明确的定义，其效用也受到质疑，因为 LLM 容易轻信虚假信息。如何解决 LLM 的可信度问题是实现 “Agent” 的关键。
评估至关重要：为 LLM 系统编写良好的自动评估对于构建有用的应用程序至关重要。有效的评估体系能够帮助开发者更好地理解和改进 LLM。
合成训练数据效果良好：越来越多的 AI 实验室使用合成数据来训练 LLM，这有助于提高模型的性能和效率。合成数据可以克服真实数据的局限性，为 LLM 训练提供更灵活的选择。
LLM 的环境影响喜忧参半：一方面，模型效率的提升降低了单次推理的能源消耗。另一方面，大型科技公司为 LLM 构建基础设施的竞赛导致了大量的数据中心建设，加剧了对电力网络和环境的压力。
LLM 使用难度增加：随着 LLM 功能的不断扩展，其使用难度也在增加。用户需要更深入地了解 LLM 的工作原理和局限性，才能更好地利用其优势。

原文编译如下，祝大家元旦快乐，enjoy：

GPT-4：从”无法企及”到”普遍超越”

在过去的一年里，大语言模型 (LLM) 领域经历了翻天覆地的变化。回望 2023 年底，OpenAI 的 GPT-4 还是一座难以逾越的高峰，其他 AI 实验室都在思考同一个问题：OpenAI 究竟掌握了什么独特的技术秘密？

一年后的今天，形势已发生根本性转变：据 Chatbot Arena 排行榜显示，原始版本的 GPT-4(GPT-4-0314) 已跌至第 70 位左右。目前，已有 18 家机构的 70 个模型在性能上超越了这个曾经的标杆。

谷歌的 Gemini 1.5 Pro 在 2024 年 2 月率先突破，不仅达到 GPT-4 水平，还带来两项重大创新：它将输入上下文长度提升至 100 万 token(后来更新至 200 万)，并首次实现了视频输入处理能力，为整个行业开创了新的可能性。

紧随其后，Anthropic 于 3 月推出 Claude 3 系列，其中 Claude 3 Opus 迅速成为业界新标杆。6 月发布的 Claude 3.5 Sonnet 更是将性能推向新高度，即使在 10 月获得重大升级后仍保持相同版本号 (业内非正式称为 Claude 3.6)。

2024 年最显著的技术进步是模型处理长文本能力的全面提升。仅仅一年前，大多数模型还局限于 4096 或 8192 个 token 的处理能力，只有 Claude 2.1 例外地支持 20 万 token。而现在，几乎所有主流提供商都支持 10 万以上 token 的处理能力。这一进步极大拓展了 LLM 的应用范围——用户不仅可以输入整本书籍进行内容分析，更重要的是，在编程等专业领域，通过输入大量示例代码，模型能够提供更准确的解决方案。

目前，超越 GPT-4 的阵营已经相当庞大。如果你今天浏览 Chatbot Arena 排行榜，GPT-4-0314 已经跌至第 70 位左右。拥有得分较高的模型的 18 个组织是：Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、Nvidia、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、Princeton 和腾讯。

这种变化深刻地反映了 AI 领域的快速发展。在 2023 年，超越 GPT-4 还是一个值得载入史册的重大突破，而到了 2024 年，这似乎已经成为衡量顶级 AI 模型的基本门槛。

部分GPT-4 级模型实现个人电脑本地运行

2024 年，大语言模型领域迎来另一重要突破：GPT-4 级别的模型已可在普通个人电脑上运行。这打破了”高性能 AI 模型必须依赖昂贵数据中心”的传统认知。

以 64GB 内存的 M2 MacBook Pro 为例，同一台 2023 年仅能勉强运行 GPT-3 级模型的设备，现在已能运行多个 GPT-4 级模型，包括开源的 Qwen2.5-Coder-32B 和 Meta’s Llama 3.3 70B。

这一突破令人惊讶，因为此前运行 GPT-4 级模型被认为需要一台数据中心级服务器，配备一个或多个价值 40000 美元以上的 GPU。

更引人注目的是 Meta 的 Llama 3.2 系列。其 1B 和 3B 版本虽不及 GPT-4，但性能远超模型规模预期。用户甚至可通过 MLC Chat iOS 应用在 iPhone 上运行 Llama 3.2 3B，这个仅需 2GB 存储空间的模型就能以每秒 20 个 token 的速度生成内容。

它们能够运行的事实证明了，很多模型在过去一年中取得了令人难以置信的训练和推理性能提升。

由于竞争和效率提高，模型价格暴跌

过去 12 个月里，大模型的价格出现了急剧下降。

2023 年 12 月，OpenAI 对 GPT-4 收取 30 美元/百万输入 tokens 的费用。如今，30 美元/mTok 的价格可以让你获得 OpenAI 最昂贵的模型 o1。GPT-4o 的价格为 2.50 美元（比 GPT-4 便宜 12 倍），GPT-4o mini 的价格为 0.15 美元/mTok——比 GPT-3.5 便宜近 7 倍，而且功能强大得多。

其他模型供应商收费更低。Anthropic 的 Claude 3 Haiku（3 月份推出，但仍是其最便宜的型号）价格为 0.25 美元/mTok。谷歌的 Gemini 1.5 Flash 价格为 0.075 美元/mTok，而他们的 Gemini 1.5 Flash 8B 价格为 0.0375 美元/mTok — 比去年的 GPT-3.5 Turbo 便宜 27 倍。

这些价格下降是由两个因素推动的：竞争加剧和效率提高。

多模态 LLM 兴起

一年前，最引人注目的例子是 GPT-4 Vision，它于 2023 年 11 月在 OpenAI 的 DevDay 上发布。谷歌的多多模态模型 Gemini 1.0 于 2023 年 12 月 7 日发布。

2024 年，几乎每个重要的模型供应商都发布了多模态模型。我们在 3 月看到了 Anthropic 的 Claude 3 系列， 4 月看到了 Gemini 1.5 Pro（图像、音频和视频），然后 9 月带来了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。我们在 10 月获得了来自 OpenAI 的音频输入和输出，然后 11 月看到了 Hugging Face 的 SmolVLM ，12 月看到了来自 Amazon Nova 的图像和视频模型。

多模态是 LLM 的巨大进步，能够针对图像（以及音频和视频）运行提示是应用这些模型的一种令人着迷的新方法。

语音和实时视频释放想象力

开始出现的音频和实时视频模式值得特别提及。

与 ChatGPT 对话的能力于 2023 年 9 月首次实现，不过当时只是语音转文本模型和新的文本转语音模型的对接。

5 月 13 日发布的 GPT-4o 进行了一个全新语音模式的演示，该模型可以接受音频输入并输出听起来非常逼真的语音，而无需单独的 TTS 或 STT 模型。

当 ChatGPT 高级语音模式终于推出时（从 8 月到 9 月缓慢推出），效果非常惊人。OpenAI 并不是唯一一家拥有多模态音频模型的团队。谷歌的 Gemini 也接受音频输入，而且 Google Gemini 应用程序现在可以以与 ChatGPT 类似的方式说话。亚马逊还预告了 Amazon Nova 的语音模式，但该模式将于 2025 年第一季度推出。

Google 于 9 月发布的 NotebookLM 将音频输出提升到了一个新水平，它可以让两个 “播客主持人” 就您输入到其工具中的任何内容进行令人毛骨悚然的逼真对话。

12 月份，实时视频成为新的焦点。ChatGPT 现在实现了与模型分享摄像头，并实时讨论所看到的内容。Google Gemini 也展示了具有相同功能的预览版本。

即时驱动的应用程序生成已经是一种商品

2023 年的 GPT-4 就已实现这一点，但其提供的价值在 2024 年才显现出来。

大模型在编写代码方面非常出色，如果你正确地给出一个提示，它们就可以使用 HTML、CSS 和 JavaScript 构建一个完整的交互式应用程序。

当 Anthropic 发布 Claude Artifacts 时，他们大力推动了这一想法，这是一项突破性的新功能。通过 Artifacts，Claude 可以为您编写一个按需交互式应用程序，然后让您直接在 Claude 界面内使用它。

从那时起，许多其他团队也建立了类似的系统。GitHub 于 10 月发布了他们的版本 GitHub Spark。Mistral Chat 于 11 月将其添加为名为 Canvas 的功能。

这个提示驱动的自定义界面功能非常强大且易于构建，预计它将在 2025 年作为一项功能出现在广泛的产品中。

最佳模型的免费使用仅持续了短短几个月

今年短短几个月内，三款最佳型号——GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro——均在全球大部分地区免费提供。

OpenAI 于 5 月向所有用户免费提供 GPT-4o ，而 Claude 3.5 Sonnet 自 6 月发布以来也免费提供。这是一个重大变化，因为在过去的一年里，免费用户大多只能使用 GPT-3.5 级别的模型。

随着 OpenAI 推出 ChatGPT Pro，那个时代似乎已经结束，而且可能永远结束了。这项每月 200 美元的订阅服务是访问其功能最强大的模型 o1 Pro 的唯一途径。

由于 o1 系列（以及其他的未来模型）背后的技巧是花费更多的计算时间来获得更好的结果，我认为免费使用最佳可用模型的日子不太可能再回来。

“Agent” 还没有真正出现

“Agent” 一词非常令人沮丧，因为它缺乏单一、明确且广泛理解的含义。如果你告诉我你正在构建 “Agent”，那么你几乎没有向我传达任何信息。

我看到的 “Agent” 的两个主要类别是：一种认为 AI 智能体是那些代表你行动的东西——类似旅行 Agent 的模型；另一种则认为 AI 智能体是能够访问工具并通过这些工具在解决问题过程中循环运行的大语言模型（LLM）。此外，“自治” 这个术语也常常被加入进来，但同样没有给出明确的定义。

不管该术语的含义如何，Agent 仍然有那种永远 “即将到来” 的感觉。抛开术语不谈，我仍然对 Agent 的实用性持怀疑态度。

评估真的很重要

2024 年，有一点变得非常明显：为 LLM 驱动的系统编写良好的自动化评估是在这些模型之上构建有用应用程序最需要的技能。

如果您拥有强大的评估套件，您就可以更快地采用新模型，更好地进行迭代，并构建比竞争对手更可靠、更有用的产品功能。

每个人都知道评估很重要，但仍然缺乏关于如何最好地实施它们的良好指导。

Apple Intelligence 很糟糕，Apple 的 MLX 库很棒

作为 Mac 用户，去年我觉得缺少一台配备 NVIDIA GPU 的 Linux/Windows 机器，这对尝试新模型来说是一个巨大的劣势。2024 年就好多了。

在实际操作中，许多模型是以模型权重和库的形式发布的，这些库更偏向于支持 NVIDIA 的 CUDA，而不是其他平台。

在这方面，llama.cpp 生态系统提供了很大帮助，但真正的突破是苹果的 MLX 库，“一个为 Apple Silicon 设计的数组框架”。它非常棒。

苹果的 mlx-lm Python 支持在我的 Mac 上运行多种 MLX 兼容模型，性能出色。Hugging Face 上的 mlx-community 提供了超过 1,000 个已经转换为所需格式的模型。

虽然 MLX 是一个游戏规则改变者，但苹果自家的 “Apple Intelligence” 功能大多令人失望。Apple 的 LLM 功能只是对前沿 LLM 功能的拙劣模仿。

“推理” 模型的兴起

2024 年最后一个季度最有趣的发展是新的推理模型的出现。以 OpenAI 的 o1 模型为例——最初于 9 月 12 日作为 o1-preview 和 o1-mini 发布。

推理模型最大的创新是它开辟了一种扩展模型的新方法：模型不再仅仅通过在训练时增加计算来提高模型性能，而是可以通过在推理上投入更多的计算来解决更难的问题。

o1 的续集 o3 于 12 月 20 日发布，并在 ARC-AGI 基准测试中取得了令人印象深刻的结果，但是成本也不低，预计总的计算时间费用成本超过 100 万美元。o3 预计将于 2025 年 1 月正式开放使用。

OpenAI 并不是唯一一家参与该类别的公司。谷歌于 12 月 19 日发布了该类别的首款参赛者 gemini-2.0-flash-thinking-exp。阿里巴巴 Qwen 团队于 11 月 28 日发布了他们的 QwQ 模型；DeepSeek 于 11 月 20 日通过其聊天界面开放了 DeepSeek-R1-Lite-Preview 模型供试用。Anthropic 和 Meta 尚未有任何进展，但是它们一定会跟进。

中国最好的 LLM 训练成本低于 600 万美元？

2024 年年底的重大新闻是 DeepSeek v3 的发布。DeepSeek v3 是一个巨大的 685B 参数模型，部分基准测试将其表现与 Claude 3.5 Sonnet 并列。

Vibe 基准测试目前将其排在第 7 位，仅次于 Gemini 2.0 和 OpenAI 4o/o1 模型。这是迄今为止排名最高的开源许可模型。

DeepSeek v3 真正令人印象深刻的是训练成本。该模型在 2788000 个 H800 GPU 小时上进行训练，估计成本为 5576000 美元。Llama 3.1 405B 训练了 30,840,000 个 GPU 小时——是 DeepSeek v3 所用时间的 11 倍，但基准测试结果略差。

环境影响有所改善

模型（托管模型和在本地运行的模型）效率的提高带来了一个可喜的结果是，在过去几年中，运行提示词的能源使用量和环境影响已大幅下降。

但是在训练和运行模型的基础设施建设仍然面临着巨大的竞争压力。谷歌、Meta、微软和亚马逊等公司都投入了数十亿美元建设新数据中心，这对电网和环境产生了非常重大的影响，甚至有人谈论建设新核电站。

这种基础设施是必要的吗？DeepSeek v3 的 600 万美元训练费用和大模型价格的持续下跌可能暗示它不是必要的。

合成训练数据效果很好

现在流行一种说法，随着互联网充斥着人工智能生成的垃圾，模型本身将会退化，以自己的输出为食，最终导致其不可避免的消亡。

但这显然不会发生。相反，我们看到人工智能实验室越来越多地使用合成内容进行训练——故意创建人工数据来帮助引导他们的模型朝着正确的方向发展。合成数据作为预训练的重要组成部分正变得越来越普遍。

另一种常用技巧是使用较大的模型来帮助为较小、更便宜的替代方案创建训练数据——越来越多的实验室使用这种方法。DeepSeek v3 使用了 DeepSeek-R1 创建的 “推理” 数据。

精心设计用于 LLM 的训练数据似乎是创建这些模型的全部。从网络上抓取完整数据并随意将其投入训练运行的日子已经一去不复返了。

大模型越来越难使用

我一直在强调的一个观点是，LLM 是面向高级用户的工具。它们看起来很简单——向聊天机器人输入消息能有多难呢？——但实际上，要充分利用它们并避免它们的种种陷阱，你需要拥有深厚的理解力和经验。

如果说有什么问题变得更糟，那就是在 2024 年，这个问题变得更加严重了。

我们已经构建了可以用人类语言进行对话的计算机系统，它们可以回答你的问题，并且通常能够回答正确！… 但这要看问题的类型，提问的方式，以及问题是否准确地体现在那些未公开的、秘密的训练数据集中。

默认的 LLM 聊天界面就像是把完全没有电脑经验的新用户丢进 Linux 终端，让他们自己摸索着去弄明白。与此同时，终端用户对这些工具的理解模型也越来越不准确，且充满误解。

很多信息更全面的人已经完全放弃了 LLM，因为他们看不出任何人能从如此多缺陷的工具中获益。想要从 LLM 中获得最大价值的关键技能，就是学会如何使用那些既不可靠又极为强大的技术。掌握这一技能显然并不容易。

知识分布极其不均

现在大多数人都听说过 ChatGPT，然而有多少人听说过 Claude 呢？那些积极关注这些技术的人与 99% 不关心的人之间的知识差距巨大。

变化的速度也并没有帮助缓解这个问题。仅在过去一个月里，我们就见证了直播接口的普及，你可以用手机摄像头对准某个物体，用语音与它对话……。大多数自认为是极客的人甚至还没尝试过这个功能。

考虑到这项技术对社会的持续（以及潜在）影响，我认为这种差距的大小是不健康的。我希望能有更多的努力投入到改善这一点上。

LLM 需要更好的批评

很多人对大模型技术感到极度反感。在一些公开论坛上，仅仅提出 “LLM 是有用的” 这个观点，就足以引发一场大争论。

有很多理由让人不喜欢这项技术——环境影响、训练数据的（缺乏）伦理性、可靠性不足、负面应用，以及对人们工作可能产生的负面影响。

LLM 绝对值得批评。我们需要讨论这些问题，寻找缓解方法，并帮助人们学习如何负责任地使用这些工具，使其正面应用超过负面影响。

原文链接：https://simonwillison.net/2024/Dec/31/llms-in-2024/

本站文章欢迎转载，但是必须注明出处“美股投资网meegoo”，并附上本文链接：https://www.meegoo.com/12762.html