我想了解有助于识别重叠数据集之间的共性和差异的算法信息。
以stackoverflow的标签系统为例:
假设这个问题被赋予了 5 个标签。假设有 1000 个其他问题至少具有这些标签之一。在这 1000 个问题中,有多少问题具有我的原始帖子所没有的共同标签?
另一种更简单的描述方式是自动建议标记系统:
“您用 [5 个我选择的标签] 标记了您的问题。其他类似的问题用 [可能感兴趣的标签列表] 进行了标记。其中 [可能感兴趣的标签列表] 是经常出现的标签,这些标签不在我的原始清单。
如果可能的话,c# 中的代码示例:)