问题标签 [flume-twitter]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 读取 gz.parquet 文件
您好我需要从 gz.parquet 文件中读取数据但不知道如何?尝试使用 impala,但我得到的结果与parquet-tools cat
没有表结构的结果相同。
PS:欢迎提出任何改进 Spark 代码的建议。
gz.parquet
由于 twitter => flume => kafka => spark streaming => hive/gz.parquet files 创建的数据管道,我有以下 parquet 文件。对于我正在使用的水槽代理agent1.sources.twitter-data.type = org.apache.flume.source.twitter.TwitterSource
Spark 代码从 kafka 中取出数据并存储在 hive 中,如下所示:
当我运行spark-streaming
应用程序时,它将数据作为gz.parquet
文件存储在 hdfs:/user/hive/warehouse
目录中,如下所示:
文件中的架构_metadata
如下:
hadoop - 无法通过 Flume 从 twitter 下载数据
当我运行上述命令时,它会生成以下错误:
这是我位于 flume/conf 文件夹中的 flume-twitter.conf 文件:
hadoop - 无法使用 Flume 流式传输 Twitter 数据
当我运行上述命令时,它不会开始流式传输并生成以下错误
请任何人帮助我两次发布我的问题。
spark-streaming - Apache Spark 与 Apache Flume 集成
如何将 Spark Streaming 配置为从 Java 中的 Flume 接收输入数据?(我被困在代码中)这是我的代码:
hadoop - 推特数据分析
水槽-twitter.conf
如果我想从一个公司合并的多个网站获取日志文件并且都有自己的网站,我将如何将 4 个重要密钥(消费者密钥、消费者密钥、访问令牌、访问密钥等)添加到水槽中-twitter.conf 以便我对所有合并的公司网站使用不同的关键词进行分析。?帮助表示赞赏。
hadoop - hive hadoop:从表中选择数据出错
在 Hive 中创建外部表后,我想知道推文的数量,所以我编写了以下查询,但出现此错误,请问如何解决此问题,这是 mapred-site.xml 的配置
apache - 如何为 Facebook 数据流配置 apache flume
您能否提供为 Facebook 数据流配置 Flume 的步骤。
我们已经成功配置了从 Twitter 提取数据的水槽。
请查看我们为从 twitter 提取数据而创建的配置。
Twitter 的 Flume 配置
TwitterAgent.sinks.HDFS.channel = MemChannel
但是如何为 facebook 获得相同的信息?或使用 Flume 为 Facebook 数据流提供工作配置
java - Hadoop:java.net.ConnectException:连接被拒绝
您好,我一直在尝试遵循本教程:http ://www.tutorialspoint.com/apache_flume/fetching_twitter_data.htm 很长时间了,我完全被困在第 3 步:在 HDFS 中创建目录。我已经运行了 start-dfs.sh 和 start-yarn.sh 并且两者似乎都正常工作,因为我得到了与教程相同的输出,但是当我尝试运行时:
我不断收到同样的错误:
我不知道为什么,因为我到处搜索并尝试了许多解决方案,但似乎无法取得进展。我将列出我认为可能导致此问题的所有文件,但我可能错了:我的 core.site.xml 是:
我的 mapred-site.xml 是:
我的 hdfs.site.xml 是:
我在虚拟机上运行 Ubuntu 14.04.4 LTS。我的 ~/.bashrc 看起来像这样:
最后我的 /etc/hosts 文件是这样设置的:
我目前没有使用添加的 hadoopmaster,这是我尝试通过尝试不使用本地主机来解决此问题的尝试之一(没有工作)。trz-VirtualBox 最初是 127.0.1.1 但我读到你应该使用你的真实 IP 地址?两者都没有,所以我不确定。我发布了所有这些文件,因为我不知道错误在哪里。我不认为这是一个路径问题(在我进入这一步之前我有很多,并且能够自己解决它们)所以我没有想法。我已经在这工作了几个小时了,所以感谢您的帮助。谢谢你。
hadoop - What should be flume.conf parametres for save tweets to single FlumeData file per hour?
We are saving tweets in a directory order like /user/flume/2016/06/28/13/FlumeData... .But each hour it creates more than 100 FlumeData file.I have changed TwitterAgent.sinks.HDFS.hdfs.rollSize = 52428800 (50 mb)
same thing happened again.After that I tried with changing rollcount parametre too but didnt work.How can i set parametres to get one FlumeData file per hour.
hadoop - Flume --PKIX 路径构建失败:sun.security.provider.certpath.SunCertPathBuilderException:
我已经在 Ubuntu 中安装了 java、hadoop 和 flume。当我运行水槽作业以从 twitter 中提取数据时,出现如下错误;不起诉这背后的问题。