1

我需要将存在于网络链接上的数据上传 到hdfs ,例如“博客”

现在我正在寻找完成此操作的选项,可以找到以下链接:

http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/

但是通过阅读水槽文档,我不清楚如何设置水槽源 以指向博客内容所在的网站。

根据我对 Fluem 文档的理解,需要有一个网络服务器,我需要在其中部署应用程序,然后将生成网络博客,这些博客将由 Flume 传输到 hdfs。

但我不想要网络服务器日志,实际上我正在寻找非结构化数据的博客内容(即所有数据+博客上的评论),然后我正在考虑使用 java map-reduce 进一步处理这些数据。

但不确定我是否朝着正确的方向前进。

我也经历了 pentaho 。但不清楚是否使用 PDI 我可以从网站获取数据并将其上传到 hdfs 。

上面的任何信息都会非常有帮助。

提前致谢 。

4

1 回答 1

3

Flume 可以提取数据(如 Twitter 的情况),也可以将数据推送到 Flume,如使用FlumeAppender的服务器日志的情况。

将博客数据导入 HDFS

a) 博客应用程序应该将数据推送到 HDFS,就像 FlumeAppender 的情况一样。必须对博客应用程序进行更改,这在大多数情况下并非如此。

或者

b) Flume 可以像 Twitter 一样使用适当的 API 来拉取博客数据。Blogger提供了一个 API 来拉取代码,可以在 Flume 源码中使用。Cloudera博客参考了Flume 代码以从 Twitter 中提取数据。

于 2013-04-11T08:06:02.553 回答