我一直在研究 R,使用 Flume 将 JSON 文件流式传输到 hadoop 数据库。现在我的问题是我如何才能真正从 JSON 文件中获取推文的内容。
JSON 文件位于“/user/flume/tweets/2013/07/14/06”中。具体来说,在这个文件夹中有 10 个文件。
我试着做:
tweets=from.dfs("/user/flume/tweets/2013/07/14/06")
.
然后在执行时lenght(tweets)
只显示 2。
这是正确的做法吗?请帮帮我。
我的最终目标是在推文流式传输到 HDFS 时对推文进行情绪分析。