2

“事实证明(惊喜)互联网上充斥着谣言和不可靠的信息。” - 阿诺德·施瓦辛格

虽然其中一些信息可以“即时”分析,例如本示例中的信息,但其他一些信息需要一段时间才能追溯到一个或多个可靠来源。

我在想是否可以制作一个自动检查算法,我们称之为“BS tagger”,例如,它作为一个 firefox 插件实现,可以确定所选文本的真实性以及与其所谓的作者匹配的真实性/来源。

我能想到的第一种实现这个算法的方法是做一个简单的谷歌搜索并检查结果的数量,但事实证明(令人惊讶的)流行度和真实性/真实性并没有那么强的相关性。

然后我想到了一些更详细的东西:某种,我们称之为“BSRank”算法,它的工作方式几乎相同,谷歌搜索等等,但只有当它找到一个“可靠”的来源复制文本时,它才会增加概率它的“真实性”(或真实性,如果只是检查所谓的鲍勃迪伦报价而不是所谓的原始可口可乐配方)。

然后我被卡住了:显然要使这个算法工作,我需要两件事:

- 可靠来源的动态“白名单”。

- 一些算法来识别和排名这个来源,webrep 风格,但比这更复杂,因为一个网站可以有许多用户或作者发布,一个网站不应该仅仅因为他们在旁边发布就给他们同样的可信度彼此。

所以算法里面的算法是这里真正的难点。我的疑虑太笼统了,我什至不知道它们是否属于这里,但我真的很感激一些意见:有什么建议吗?有没有人看到更好的方法来解决这个问题或任何相关项目,或者可以向我推荐一些关于这个主题的好文献?你认为这可以用学生业余时间的资源来完成,还是对于菜鸟程序员来说项目太大了?

4

1 回答 1

2

这听起来像是一个有趣的项目,可以像您希望的那样简单/复杂。

简单版

  • 手动创建源白名单。

  • 在这些来源中查找目标短语和演说者。

(可能来源:http ://thinkexist.com )

更复杂

  • 创建源的白名单和黑名单。

  • 搜索目标。

  • 对于包含目标的页面,确定它们是否更类似于您的白名单来源或黑名单来源。

(您需要创建一种方法来获取两个网页之间的相似性。)

更复杂

使用监督机器学习:

  • 首先手动将一些网页标记为可靠、不可靠或介于两者之间。

  • 在该训练数据上训练机器学习系统。

  • 现在机器学习系统可以预测新网页的类别。

更复杂的++

实际上是自己编写监督机器学习系统,基于几种方法并比较结果。

另一个想法

使用监督机器学习系统来报告目标短语本身是否可靠,而无需寻找任何其他来源。

整个 9 码

使用无监督机器学习系统仅基于几个种子关键字或短语来构建白名单/黑名单网页的集合。

整个 10 码(为什么人们只想去 9?)

编写您自己的无监督系统,可能基于引导。

最后的一些想法

我建议从简单开始,然后向上移动。

此外,构建一个测试设备,让您计算特定解决方案的效果,这样您就可以比较不同的方法。

您可能希望记录系统报告的假阳性、阳性阳性、假阴性、阴性阴性和未决定的数量。

这样您就可以确定准确度和召回率,并评估您的系统。

我会假设简单的方法会提供高准确率和低召回率。

但是更复杂的方法可能会产生一个比人类验证速度快得多的系统,但它的表现不如人类。

最后的事情

这个问题是一个老问题,几乎不可能达到完美。

这让我想起了我最近读到的几页:

于 2012-08-07T00:34:51.523 回答