duplicates - 贝叶斯过滤器标记重复项

Question

我收集某些主题的新闻，然后对它们运行贝叶斯分类器以将它们标记为有趣或不有趣。我看到有些新闻是不同的文章本质上是相同的新闻。例如 - 本金斯利和妻子参观泰姬陵 - 金斯利在泰姬陵的草坪上与妻子浪漫

我如何教系统将所有这些标记为重复项？

谢谢桑杰

score 4 · Accepted Answer

有趣的想法。我想这已经被研究过，在一些 comp-sci 期刊上看一下应该会找到一些好的指针。这就是我的一些想法：

方法

您可以找到最独特的关键短语，并查看它们与其他文章的关键短语的匹配程度。我想谷歌发布的关于网络上短语频率的数据会给你一个基线。

您需要以某种方式了解“在”是一个非常常见的短语但“金斯利访问”很重要的事实。一旦您将所有文本过滤为仅关键短语，您就可以看到其中有多少匹配。

关键词：

所有动词、名词、名称和新词（新词/拼错词）的集合
你可以抓取一到五个字长的短语
删除所有非常常见的（可以在常用短语上有分类器）
看看它们中有多少在文章之间匹配。
有一个可控的滑块来设置匹配阈值

如果你自己写这个并不容易，但我会说这是一个非常有趣的问题领域。

例子

如果我们只是使用标题并手动遵循该方法。

本金斯利与妻子参观泰姬陵将创建以下关键字：

本金斯利
金斯利
金斯利来访
妻子
玛哈尔
... ETC ...

但这些应该被删除，因为它们太常见了（因此无助于唯一地识别内容）

本
与妻子

一旦对另一个标题Kingsley 浪漫的妻子在 Taj 的草坪上完成相同的操作，您就可以比较并发现相当多的关键短语彼此匹配。因此，他们在同一个主题上。

尽管这已经是一项艰巨的任务，但您可以做很多事情来进一步匹配。

扩展

这些都是在创建关键字集后修剪关键字集的所有方法。

WordNet将是寻找“更长”和“扩展”之间匹配的一个很好的开始。这将很有用，因为文章不会使用相同的词典进行写作。
您可以在关键短语上运行贝叶斯分类器。可以通过拥有所有匹配/不匹配文章及其关键短语的集合来训练它。您必须小心处理看不见的短语，因为这些可能是您遇到的最重要的事情。在非关键短语上运行它可能会更好。
如果没有其他匹配项，甚至可以计算一些关键短语之间的Levenshtein 距离。我猜很可能总会找到一些匹配项。

我有一种感觉，这是一个很好的答案会让你获得博士学位的事情之一。再说一次，我想以前已经做过了（谷歌必须有一些自动的方法来抓取所有这些新闻网站并将它们归入类别和类似文章中）

祝你好运。

score 2 · Accepted Answer

这是一个分类问题，但考虑到您将拥有的不同类别的数量，难度会更大。一种选择可能是使用特征选择（更多信息）来减小每个文档的大小。特征选择涉及选择前n 个术语（不包括停用词，并且可能还对每个词应用词干）。通过计算每个文档的互信息来做到这一点（更多信息)，按该数字对术语进行排序，并为每个文档选择前 n 个术语。现在，每个文档的前 n 个术语的简化特征集可以构成执行重复选择的基础（例如，如果任何文档之间有超过x%的共同术语，再次通过回测计算 x），

大部分内容都包含在这本关于信息检索的免费书籍中。

duplicates - 贝叶斯过滤器标记重复项

2 回答 2

方法

例子

扩展

Related

Reference