hadoop - Flume 不接受 Twitter 流的关键字

Question

这里是 Hadoop 新手，使用本教程：https ://acadgild.com/blog/streaming-twitter-data-using-flume/捕获推文。这是我的 flume.conf 文件：

TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.consumerKey=xxxx
TwitterAgent.sources.Twitter.consumerSecret=xxxx
TwitterAgent.sources.Twitter.accessToken=xxxx
TwitterAgent.sources.Twitter.accessTokenSecret=xxxx

TwitterAgent.sources.Twitter.keywords= #canpoli

TwitterAgent.sinks.HDFS.channel=MemChannel
TwitterAgent.channels.MemChannel.capacity=10000
TwitterAgent.sinks.HDFS.type=hdfs
TwitterAgent.sinks.HDFS.hdfs.path=hdfs:/xxxx/user/flume/tweets
TwitterAgent.sinks.HDFS.hdfs.fileType=DataStream
TwitterAgent.sinks.HDFS.hdfs.writeformat=Text
TwitterAgent.sinks.HDFS.hdfs.batchSize=1000
TwitterAgent.sinks.HDFS.hdfs.rollSize=0
TwitterAgent.sinks.HDFS.hdfs.rollCount=10000
TwitterAgent.sinks.HDFS.hdfs.rollInterval=600

TwitterAgent.channels.MemChannel.type=memory
TwitterAgent.channels.MemChannel.capacity=10000
TwitterAgent.channels.MemChannel.transactionCapacity=1000

TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sinks.HDFS.channel = MemChannel`

它可以很好地流式传输推文，它可以正确保存到我想要的目录中，但它似乎在流式传输所有内容而没有过滤我的关键字。我收到来自世界各地的推文，除了那个标签。

可能是什么问题？

score 1 · Accepted Answer

首先，它接受所有主题标签，因为您提供了一个空列表。

#字符是注释，因此等号之后的所有内容都被视为忽略。至少我认为它是这样解析的。

您链接到一个不使用#.

其次，该来源被认为是实验性的，似乎没有提及关键字。

https://flume.apache.org/FlumeUserGuide.html#twitter-1-firehose-source-experimental

您的代码看起来几乎与 Cloudera 中的这个示例一模一样，其中包含配置中的注释并具有关键字，如果您检查，则存在不同的源类。

TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource

https://github.com/cloudera/cdh-twitter-example/blob/master/flume-sources/flume.conf

您需要在那里下载该 java 代码，将其打包为 JAR，并将其放在 Flume lib 目录中

hadoop - Flume 不接受 Twitter 流的关键字

1 回答 1

Related

Reference