“事实证明(惊喜)互联网上充斥着谣言和不可靠的信息。” - 阿诺德·施瓦辛格
虽然其中一些信息可以“即时”分析,例如本示例中的信息,但其他一些信息需要一段时间才能追溯到一个或多个可靠来源。
我在想是否可以制作一个自动检查算法,我们称之为“BS tagger”,例如,它作为一个 firefox 插件实现,可以确定所选文本的真实性以及与其所谓的作者匹配的真实性/来源。
我能想到的第一种实现这个算法的方法是做一个简单的谷歌搜索并检查结果的数量,但事实证明(令人惊讶的)流行度和真实性/真实性并没有那么强的相关性。
然后我想到了一些更详细的东西:某种,我们称之为“BSRank”算法,它的工作方式几乎相同,谷歌搜索等等,但只有当它找到一个“可靠”的来源复制文本时,它才会增加概率它的“真实性”(或真实性,如果只是检查所谓的鲍勃迪伦报价而不是所谓的原始可口可乐配方)。
然后我被卡住了:显然要使这个算法工作,我需要两件事:
- 可靠来源的动态“白名单”。
- 一些算法来识别和排名这个来源,webrep 风格,但比这更复杂,因为一个网站可以有许多用户或作者发布,一个网站不应该仅仅因为他们在旁边发布就给他们同样的可信度彼此。
所以算法里面的算法是这里真正的难点。我的疑虑太笼统了,我什至不知道它们是否属于这里,但我真的很感激一些意见:有什么建议吗?有没有人看到更好的方法来解决这个问题或任何相关项目,或者可以向我推荐一些关于这个主题的好文献?你认为这可以用学生业余时间的资源来完成,还是对于菜鸟程序员来说项目太大了?