工作流程

Transform business strategies with advanced india database management solutions.
Post Reply
asimj1
Posts: 78
Joined: Tue Jan 07, 2025 4:48 am

工作流程

Post by asimj1 »

图 2 显示了工作流程的概述。首先,从数据表中读取小红帽的故事。我们应用了一些预处理步骤,包括转换为小写和句子提取。接下来,使用 Auto-Binner 节点将故事分成几个箱子。每个箱子中的句子数量因故事而异,用户可以更改。在工作流程中,您可以看到两个示例:一个将故事分成 86 个箱子,每个箱子包含一个句子,而第二个示例将故事分成 21 个箱子,每个箱子包含四个句子。在图 1 中,您可以看到基于 21 个箱子的图表,下面的图 3 显示了基于 86 个箱子的图表。

您可以从我们的中心下载 Topic River Red Riding Hood 工作流程 这里。


图 2:工作流程概览:在最顶部的分支中,每个箱 阿塞拜疆电话号码数据 子使用四个句子。中间的分支显示每个箱子一个句子的可视化。在底部的分支中,循环执行了从每个箱子一个句子、两个句子等,直到总共只有三个箱子。根据不同的循环可视化结果,我们可以确定最佳的每箱子句子设置。

图 3:小红帽文本流可视化,每个容器一个句子。与图 1 相比,几乎看不出字符共现。每个容器一个句子通常粒度太细,导致容器之间出现高频波动。
将句子均匀地分成几部分后,我们使用 GroupBy 节点将每个部分中的所有句子连接起来,并将它们转换为文档,为每个部分提供一个文档。现在是时候使用 Dictionary Tagger 节点标记主要角色并计算其出现次数,并使用 TF 节点创建一个词袋并计算词频。

此时,我们已经拥有了所需的所有数据——每个字符在每个容器中的绝对频率——但它们的格式还不正确。我们希望字符名称是列名,行包含每个容器中的频率值。为此,我们使用了 Pivoting 节点。整个过程如图 4 所示。现在数据处理已完成,可以应用 Stacked Area Chart 节点来可视化文本流。
Post Reply