使用 Aleph Alpha Luminous 批量生成机器生成的摘要

suchona.kani.z · Post by **suchona.kani.z** » Thu Jan 16, 2025 4:40 am

当涉及到编辑工作时，寻找合适的甚至相关的来源是非常耗时的。对于这些编辑活动，主要使用特定主题的知识数据库，其中包含大量条目。知识数据库中各个条目的摘要使搜索者更容易评估条目是否相关。因此，知识数据库中每个条目的摘要对于使日常编辑工作变得更加轻松和高效是必要的。

在这篇博文中，我们想讨论 adesso 博客中之前博文的概念 - 例如“通过 R 使用 Aleph Alpha Luminous 机器生成的文本摘要”主题 - 并报告一个已完成的客户项目实施的。在这种情况下，文本大小远远超过了常见的“摘要测试数据集： CNN/每日邮报”的平均长度。

知识源通常以 PDF 格式分发。为了能够从此源格式生成机器摘要，必须首先将 PDF（或其他格式，例如图像、视频等）转换为文本。然后可以将文本输入到 Aleph Alpha Luminous 等语言模型中以生成摘要。在需要根据波斯尼亚和黑塞哥维那 whatsapp 数据摘要做出决策的专业活动中，摘要必须遵循类似的方案。本文的第一部分是关于文本的预处理，第二部分详细描述了机器根据现有文本生成摘要。

说明 PDF2Text 解析：为生成摘要任务而对文本进行预处理
为了从大型语言模型生成准确的摘要（通过合理的努力），必须创建语言模型的文本输入数据的要求。源数据通常保存为 PDF 文件。因此，我们摘要生成流程的第一步是将 PDF 文件解析为文本文件。在解析过程之后，文本通常仍然包含噪声。这些是不必要的标记，对摘要的正确性或内容不起任何作用，但如果在语言模型中处理，仍然会花费金钱。因此，文本清洗是去除噪声并为下一步准备数据的重要步骤。数据的上下文在我们如何进行文本清理方面可以发挥重要作用。例如，网页数据需要与报告（元数据标准较少）或期刊文章（元数据标准较多，例如 DOI、ISBN、参考文献等）不同的清理步骤。由于我们的数据各不相同，因此我们通常会开发一种文本清理流程，该流程会针对预期的大多数数据类型进行尽可能优化。定义文本清理管道的另一个标准是自然语言处理（NLP）任务的类型。对于摘要生成的任务，我们遵循下面介绍的文本清理管道。然而，对于其他 NLP 任务，可以考虑对文本清理管道进行相应的扩展。