我收集某些主题的新闻,然后对它们运行贝叶斯分类器以将它们标记为有趣或不有趣。我看到有些新闻是不同的文章本质上是相同的新闻。例如 - 本金斯利和妻子参观泰姬陵 - 金斯利在泰姬陵的草坪上与妻子浪漫
我如何教系统将所有这些标记为重复项?
谢谢桑杰
我收集某些主题的新闻,然后对它们运行贝叶斯分类器以将它们标记为有趣或不有趣。我看到有些新闻是不同的文章本质上是相同的新闻。例如 - 本金斯利和妻子参观泰姬陵 - 金斯利在泰姬陵的草坪上与妻子浪漫
我如何教系统将所有这些标记为重复项?
谢谢桑杰
有趣的想法。我想这已经被研究过,在一些 comp-sci 期刊上看一下应该会找到一些好的指针。这就是我的一些想法:
您可以找到最独特的关键短语,并查看它们与其他文章的关键短语的匹配程度。我想谷歌发布的关于网络上短语频率的数据会给你一个基线。
您需要以某种方式了解“在”是一个非常常见的短语但“金斯利访问”很重要的事实。一旦您将所有文本过滤为仅关键短语,您就可以看到其中有多少匹配。
关键词:
如果你自己写这个并不容易,但我会说这是一个非常有趣的问题领域。
如果我们只是使用标题并手动遵循该方法。
本金斯利与妻子参观泰姬陵将创建以下关键字:
但这些应该被删除,因为它们太常见了(因此无助于唯一地识别内容)
一旦对另一个标题Kingsley 浪漫的妻子在 Taj 的草坪上完成相同的操作,您就可以比较并发现相当多的关键短语彼此匹配。因此,他们在同一个主题上。
尽管这已经是一项艰巨的任务,但您可以做很多事情来进一步匹配。
这些都是在创建关键字集后修剪关键字集的所有方法。
WordNet将是寻找“更长”和“扩展”之间匹配的一个很好的开始。这将很有用,因为文章不会使用相同的词典进行写作。
您可以在关键短语上运行贝叶斯分类器。可以通过拥有所有匹配/不匹配文章及其关键短语的集合来训练它。您必须小心处理看不见的短语,因为这些可能是您遇到的最重要的事情。在非关键短语上运行它可能会更好。
如果没有其他匹配项,甚至可以计算一些关键短语之间的Levenshtein 距离。我猜很可能总会找到一些匹配项。
我有一种感觉,这是一个很好的答案会让你获得博士学位的事情之一。再说一次,我想以前已经做过了(谷歌必须有一些自动的方法来抓取所有这些新闻网站并将它们归入类别和类似文章中)
祝你好运。