决方案包括在加入完

ayesha112 · Post by **ayesha112** » Sun Mar 02, 2025 7:10 am

左图：每种方法检索到的前 200 个候选中测量到的包容性总体分布。右图：回归图突出显示了数据湖中更高的包容性和更好的预测性能之间的关系。这两个图都是在选择的不同数据湖上完成的。
仔细观察包容性，我们注意到精确方法可以检索所有具有高包容性的候选结果（左图），而基于 MinHash 的方法生成的候选结果的平均包容性往往比其竞争对手低得多。右图显示高包容性和良好结果之间存在正相关性：这是有道理的，因为基表和任何候选结果之间的“匹配行”数量与包容性成正比。

然而，虽然这些结果似乎表明单波斯尼亚和黑塞哥维那 Whatsapp 数据凭遏制就足以保证良好的结果，但我们观察到实践中情况并非如此（正如最高遏制结果在连接选择器阶段所证明的那样）。

事实上，涉及非常高冗余度的场景可能会导致选择同一候选集的多个副本，这些副本可能具有相同的包含度。高包含度的候选集仍可能引入对预测任务无用的特征。最后，包含度不会跟踪集合基数：集合 {0, 1} 将与另一个集合 {0, 1} 完全重叠；加入此类候选集充其量是无用的，最坏的情况是导致内存错误。

这些问题的可能解美匹配的集合之前执行健全性检查或对基表和数据湖表进行分析和过滤以防止出现问题（例如，避免使用数字键、低基数列等）。

总体信息是，虽然遏制并不能保证良好的性能，但它仍然与之相关，因此仍然有用。通过在查询之前对数据湖进行分析和过滤，可以缓解冗余和低基数的情况。