0

这似乎是一个愚蠢的问题,但随着关于大数据的所有嗡嗡声,我很好奇大数据中使用的典型数据集是如何获取的?Twitter 关键字似乎是一个常见的来源——但被分析的巨大 Twitter 提要文件的来源是什么?我看到了一个例子,其中分析了奥巴马和罗姆尼等与选举相关的词。有人查询 Twitter API 并有效下载了几 TB 的推文?Twitter 是否甚至希望人们如此努力地访问他们的服务器?或者这些数据是否已经由进行分析的公司“拥有”。这听起来可能很奇怪,但我看到的大多数文章都对这些基本的物理步骤很模糊。任何指向解决这些基本问题的好文章或教程的链接将不胜感激

4

2 回答 2

3

以下是获取大数据来源的一些想法:

  • 正如您所指出的, Twitter是一个获取数据的好地方,并且有很多有用的分析要做。如果您正在学习有关数据科学的在线课程,其中一项作业实际上是如何从 Twitter 获取实时数据进行分析,因此我建议您查看此作业,因为获取实时 Twitter 数据的过程非常详细。您可以让实时流运行数天,运行时间越长,它可能会生成数千兆字节的数据。
  • 如果你有一个网站,你可以获得网络服务器日志。如果它是一个小型网站,它可能不会很多,但对于看到大量流量的大型网站来说,这是一个巨大的数据来源。想想如果你有 StackOverflow 网络服务器日志你能做什么......
  • 您可以在Marineexplore找到海洋学数据,如果您想分析海洋数据,可以下载并自行分析一些庞大的数据集。
  • 网络爬取数据,例如搜索引擎使用的数据。您可以在Common Crawl上看到一些来自 Web 抓取的开放数据,这些数据已经在 Amazon S3 上,因此准备好让您的 Hadoop 作业在其上运行!您还可以在此处从 Wikipedia 获取数据。
  • 基因组数据现在可以大规模获取,您可以通过 FTP在 1000 个基因组计划中找到基因组数据。
  • ...

更一般地说,我建议你看看亚马逊 AWS 数据集,如果你不只是在看 Twitter,而是在更一般的背景下看大数据,它有一堆关于各种主题的大数据集。

于 2013-05-22T05:51:16.620 回答
0

大多数企业从Gnip等Twitter 认证数据合作伙伴处获取社交数据。

注意:我为 Gnip 工作。

于 2013-05-22T19:41:39.437 回答