hadoop - 将数据从网站加载到 hdfs

Question

我需要将存在于网络链接上的数据上传到hdfs ，例如“博客”。

现在我正在寻找完成此操作的选项，可以找到以下链接：

但是通过阅读水槽文档，我不清楚如何设置水槽源 以指向博客内容所在的网站。

根据我对 Fluem 文档的理解，需要有一个网络服务器，我需要在其中部署应用程序，然后将生成网络博客，这些博客将由 Flume 传输到 hdfs。

但我不想要网络服务器日志，实际上我正在寻找非结构化数据的博客内容（即所有数据+博客上的评论），然后我正在考虑使用 java map-reduce 进一步处理这些数据。

但不确定我是否朝着正确的方向前进。

我也经历了 pentaho 。但不清楚是否使用 PDI 我可以从网站获取数据并将其上传到 hdfs 。

上面的任何信息都会非常有帮助。

提前致谢。

score 3 · Accepted Answer

Flume 可以提取数据（如 Twitter 的情况），也可以将数据推送到 Flume，如使用FlumeAppender的服务器日志的情况。

将博客数据导入 HDFS

a) 博客应用程序应该将数据推送到 HDFS，就像 FlumeAppender 的情况一样。必须对博客应用程序进行更改，这在大多数情况下并非如此。

或者

b) Flume 可以像 Twitter 一样使用适当的 API 来拉取博客数据。Blogger提供了一个 API 来拉取代码，可以在 Flume 源码中使用。Cloudera博客参考了Flume 代码以从 Twitter 中提取数据。

1 回答 1