关键词提取可以轻松地从非结构化文本中识别相关的单词和短语。这包括网页、电子邮件、社交媒体帖子、即时消息对话以及任何其他未以预定义方式组织的数据类型。
您可以使用不同的方法来自动提取关键字。从通过计算词频来检测关键词的简单统计方法到通过机器学习实现的更高级的方法,您可以实现适合您需求的模型。
在本节中,我们将研究关键词提取 巴哈马商业指南 的不同方法,重点关注基于机器学习的模型。[2]
简单的统计方法
使用统计数据是识别文本中的关键词和表达的最简单的方法之一。
统计方法有多种类型,包括词频、词搭配和共现、TF-IDF(词频-逆文档频率)和RAKE(快速自动关键词提取)。
这些方法不需要训练数据来从文本中提取最重要的关键词。然而,由于它们基于统计数据,所以可能会错过仅提及一次的相关单词或短语。让我们仔细看看这些不同的方法:
词频
词频涉及列出文本中最常出现的单词和短语。这对于多种目的非常有用,从识别一系列产品评论中重复出现的术语到查找客户服务互动中遇到的最常见问题。
然而,基于词频的方法将文档视为简单的“词的集合”,而忽略了与语义、结构、语法和词序相关的重要方面。例如,同义词无法通过此方法检测。
以下是获取文本中词频的Python 代码摘录(您可以在下面找到笔记本):
词语搭配和共现
词语搭配和共现(也称为 n-gram)可以帮助您理解文本的语义结构。这些方法认为每个单词都是独一无二的。
搭配和共现之间的区别:
搭配是经常关联的词语。最常见的搭配类型是二元词组(两个相邻出现的术语,例如“网络写作”或“数字代理”)和三元词组(一组三个词,例如“用户友好”或“公共交通”)。
另一方面,共现是指倾向于在同一文本中同时出现的词语。它们不一定相邻,但具有语义关系。
TF-IDF
TF-IDF 是频率-逆文档频率的缩写,是一种衡量出现在语料库文档中的单词的重要性的公式。该度量计算某个单词在文本中出现的次数(词频),并将其与语料库中包含该词的文档比例的倒数(即该单词的稀有度或频率)进行比较。
将这两个量相乘可得出 TF-IDF 分数。分数越高,该词与文档的相关性越高。
当谈到关键词提取时,这种方法可以帮助您识别内容中最相关的词(得分最高的词)并将其视为关键词。这对于标记支持票或分析客户反馈等任务特别有用。
在大多数情况下,一组文档中出现频率最高的词不一定是最相关的词。类似地,在单个文本中出现但在其他文档中没有出现的词对于理解该文本的内容可能非常重要。
TF IDF 用于 SEO 吗?
搜索引擎有时除了使用其他因素之外,还会使用 TF-IDF 模型。
TF-IDF 方法是否提供了足够的信息来优化您的内容写作?一点儿也没有。
该方法已有 50 多年的历史,但在Google 搜索算法的运行中起的作用非常有限。这并不是尖端技术。