-2

我正在寻找人们解释他们如何使用大数据解决性能和其他问题的网站\博客。我知道一些有关可扩展 Web 应用程序和网站的资源(如 twitter、facebook)。没关系,但我正在寻找主要用于数据挖掘的具体算法。

4

1 回答 1

0

实际上,很多在大数据上做的事情都不符合“数据挖掘”的条件。他们最多先前学习的规则应用于统一的大数据,主要是预测消费者对向他们提供广告的兴趣。但这主要归结为“对体育感兴趣”类型的决定。相当大的错误率在这里是可以接受的,因为向对体育不感兴趣的人提供体育广告几乎没有成本。网络上充斥着谷歌将人们置于错误的消费群体中的故事。甚至经常错误地预测性别。

每当您看到“大数据”时,请谨慎对待。它主要是吹牛和流行语宾果游戏。大数据的挑战仍然在于实际完成它,而不是(尚未)正确完成它。

一个很好的例子是这篇文章:http ://www.technologyreview.com/web/39487/

雅虎预测(使用推特“大数据”并推送这篇声称他们比出口民意调查要好得多的文章。吹嘘吹嘘)“罗姆尼有 90% 的机会赢得南卡罗来纳州”。实际上,罗姆尼得到了 28%,而金里奇得到了 40%。

或者尝试一些“情绪分析”类型的工具。他们会告诉你,包含“小狗”的推特帖子是正面的,包含“蟑螂”的帖子是负面的。这就是他们如今通过“情绪分析”获得的质量。同样,他们非常专注于从数据中获取任何东西,他们还没有真正分析(甚至验证)结果。对不起。我敢打赌,我会因为如此批评而遭到一些反对,但这就是每天都在发生的事情。请参阅雅虎示例。他们显然能够处理他们的“大数据”,但他们的结果肯定还没有准备好迎接黄金时段,他们仍然需要努力。

同样,对于某些情况,例如广告定位,错误率可能非常高。任何比随机更好的东西,都比随机更好!这意味着比只投放随机广告更多的钱。所以它不是一文不值;只是可能无法与非大数据方法相提并论。

于 2012-06-22T23:09:25.417 回答