我需要将存在于网络链接上的数据上传 到hdfs ,例如“博客”。
现在我正在寻找完成此操作的选项,可以找到以下链接:
http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop/
但是通过阅读水槽文档,我不清楚如何设置水槽源 以指向博客内容所在的网站。
根据我对 Fluem 文档的理解,需要有一个网络服务器,我需要在其中部署应用程序,然后将生成网络博客,这些博客将由 Flume 传输到 hdfs。
但我不想要网络服务器日志,实际上我正在寻找非结构化数据的博客内容(即所有数据+博客上的评论),然后我正在考虑使用 java map-reduce 进一步处理这些数据。
但不确定我是否朝着正确的方向前进。
我也经历了 pentaho 。但不清楚是否使用 PDI 我可以从网站获取数据并将其上传到 hdfs 。
上面的任何信息都会非常有帮助。
提前致谢 。