hadoop - 大数据——数据从何而来？

Question

这似乎是一个愚蠢的问题，但随着关于大数据的所有嗡嗡声，我很好奇大数据中使用的典型数据集是如何获取的？Twitter 关键字似乎是一个常见的来源——但被分析的巨大 Twitter 提要文件的来源是什么？我看到了一个例子，其中分析了奥巴马和罗姆尼等与选举相关的词。有人查询 Twitter API 并有效下载了几 TB 的推文？Twitter 是否甚至希望人们如此努力地访问他们的服务器？或者这些数据是否已经由进行分析的公司“拥有”。这听起来可能很奇怪，但我看到的大多数文章都对这些基本的物理步骤很模糊。任何指向解决这些基本问题的好文章或教程的链接将不胜感激

score 3 · Accepted Answer

以下是获取大数据来源的一些想法：

正如您所指出的， Twitter是一个获取数据的好地方，并且有很多有用的分析要做。如果您正在学习有关数据科学的在线课程，其中一项作业实际上是如何从 Twitter 获取实时数据进行分析，因此我建议您查看此作业，因为获取实时 Twitter 数据的过程非常详细。您可以让实时流运行数天，运行时间越长，它可能会生成数千兆字节的数据。
如果你有一个网站，你可以获得网络服务器日志。如果它是一个小型网站，它可能不会很多，但对于看到大量流量的大型网站来说，这是一个巨大的数据来源。想想如果你有 StackOverflow 网络服务器日志你能做什么......
您可以在Marineexplore找到海洋学数据，如果您想分析海洋数据，可以下载并自行分析一些庞大的数据集。
网络爬取数据，例如搜索引擎使用的数据。您可以在Common Crawl上看到一些来自 Web 抓取的开放数据，这些数据已经在 Amazon S3 上，因此准备好让您的 Hadoop 作业在其上运行！您还可以在此处从 Wikipedia 获取数据。
基因组数据现在可以大规模获取，您可以通过 FTP在 1000 个基因组计划中找到基因组数据。
...

更一般地说，我建议你看看亚马逊 AWS 数据集，如果你不只是在看 Twitter，而是在更一般的背景下看大数据，它有一堆关于各种主题的大数据集。

score 0 · Accepted Answer

大多数企业从Gnip等 Twitter 认证数据合作伙伴处获取社交数据。

注意：我为 Gnip 工作。

hadoop - 大数据——数据从何而来？

2 回答 2

Related

Reference