第一批能够处理非文本信息的 LLM 于 2022 年问世,第一批具有此类功能的商业产品于 2023 年底上市,但多模式 LLM真正成为主流是在 2024 年。现在,所有主要的 LLM 提供商都提供处理图像、有时还处理音频和视频以及文本的可能性。
这为有效处理丰富的信息源(如不仅包括文本还包括图片、图表和表格的文档)提供了可能性。十八个月前,基于这些文档实现问答系统是可能的,但具有挑战性、耗时且容易出错。相比之下,由于多模态 LLM 以及最近的多模态检索模型(如ColPali)或现代文档解析库或 API,这在今天变得相当简单。多模态 LLM 还可以实现更自然、反应更快的用户界面(尤其是通 菲律宾电话号码数据 过利用智能手机的摄像头或麦克风等实时传感器)。
这是预训练时代的终结吗?
单纯通过规模来扩展模型的时代正在消亡。随着预训练计算量和数据量的增加变得越来越低效,LLM 提供商正在考虑采用其他途径来开发下一代模型。
2024 年 9 月,OpenAI 发布了o1,这是一系列实验模型,经过专门微调后,可以在给出答案之前生成思路链。这些模型在数学、编码和科学基准测试中得分特别高。有趣的是,o1 的性能随着训练时间计算(即微调模型所需的计算)和测试时间计算(即模型微调后生成答案和相关思路链所需的计算)的增加而提高。
这提供了一种计算优化扩展策略的可能性,该策略更加重视文本生成步骤,并为推理任务产生更好的结果,但可能会增加每个响应的成本和延迟。OpenAI 的几家竞争对手正在研究类似的方法,谷歌和 DeepSeek 已经公布了他们的推理模型,而 OpenAI 则在 2024 年 12 月展示了o3——具有令人印象深刻功能的 o1 的继任者。
GPT-4o、o1-preview 和 o3 在 ARC-AGI-1 数据集上取得的分数
图 2:GPT-4o、o1-preview 和 o3 在 ARC-AGI-1 数据集上取得的分数,这是一个具有挑战性的基准,用于衡量新逻辑任务的泛化能力。请注意,o3 和 o1-preview 需要比 GPT-4o 更多的测试时间计算。资料来源:ARC 奖
这反映了开发复合 AI 系统的长期趋势。这些系统通过修改查询模型的方式或使用外部组件增强模型来弥补模型的缺点。它们可以涉及相对简单的快速工程方法,例如思路链或检索增强生成,也可以涉及更复杂的方法,例如 LLM 代理、结构化文本生成技术和优化框架(例如DSPY)。