问题标签 [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 在 spark 结构化流 forEachWriter 中创建 Dataframe 以插入 kudu 表问题
我有一个问题,我尝试寻找解决方案,但无法解决任何问题,我希望获得任何 *pointers。
所以我正在尝试将 Spark 结构化流与 Apache Kudu 集成,我正在从 Kafka 读取流并进行一些处理,现在应该写入 Kudu 表,问题是 Spark 结构化流不提供对 Kudu 接收器的支持(即我知道吗?),我正在使用 foreach 编写器,但是一旦尝试在“ForeachWriter.process()”中创建一个数据框,它就会挂起并且永远不会继续
apache-spark - Kudu 嵌套字段
我对带有嵌套字段的 Kudu 有疑问。
我有来自 Kafka 的 JSON,如下所示:
dfp
field 有一个嵌套对象,我想通过 Flume 将这个对象插入到 kudu
我知道 kudu 不支持嵌套字段,并且支持二进制列。我需要做什么?
- 将字段转换
dfp
为二进制格式并读取例如 scala spark? - 将 JSON 转换为扁平格式(但在许多情况下并不是最好的问题,例如带有产品 ID、名称和其他的流式产品购买或页面中的产品视图)。
impala - 如何在 DC/OS 中使用 Impala 配置 apache kudu?
我们需要在 DC/OS 中配置 Kudu master 和 kudu tablet server。我们需要
的架构类似于:
在此处输入
如何在 DC/OS 中配置服务以正确扩展。我们需要复制 Impala Daemon、kudu Tablet Server 和 Hadoop Data Node。
impala - impala 扫描(READ_LATEST 模式)不一致是否仅在领导者更改期间出现?
当我尝试使用 impala 传输一次海量数据(约 100G)并立即选择 count(1)时,我得到了错误的总数。然后我再次执行相同的sql,总数是正确的。
我想知道除了leader change之外,还有其他内部操作会导致扫描不一致吗?如果我将 impala 配置 kudu_read_mode: READ_LATEST 更改为 kudu_read_mode: READ_AT_SNAPSHOT,那么 impala 将传输的时间戳是多少?如果 READ_AT_SNAPSHOT 可以解决问题?
我正在使用 impala 2.10.0 + kudu 1.5.0。
hadoop - 具有远程部署的 Hadoop 键值存储
我的应用程序是通过 spark-submit 在 yarn-cluster 模式下使用 Kerberos 密钥表和本指南的主体从远程 pc 启动的:https ://spark.apache.org/docs/latest/running-on-yarn.html 。这种方法的优点是我在任何集群上都有自己的 spark 版本。
是否可以仅通过运行带有 HADOOP_CONF_DIR/YARN_CONF_DIR 配置的 bash 脚本自动将 Ignite/Hazelcast/Accumulo/Kudu 或其他具有随机读/写访问权限的 NoSQL DB 部署到没有 sftp/ssh 的 Hadoop YARN 集群中?
sqoop - 导入到 kudu 表的 sqoop 语法
我们想测试 Kudu,需要导入数据。Sqoop 似乎是正确的选择。我找到了可以导入 Kudu 的参考资料,但没有具体说明。有什么方法可以使用 Sqoop 导入 Kudu 吗?
hdfs - 将数据从 HDFS 加载到 Kudu
我正在尝试将数据加载到 Kudu 表,但得到一个奇怪的结果。
在 Impala 控制台中,我从 Sqoop 导入的四个 HDFS 文件创建了一个外部表:
一个 SELECT COUNT(*) 告诉我有很多行存在。查询时数据看起来不错。
我使用标准选择复制结果
SELECT COUNT(*) 告诉我 impala_kudu.DATEDIM 有四行(HDFS 中的文件数不是表中的行数。
有任何想法吗?
scala - 如何在 Spark 2.1 中通过 kudu API 编写和更新
我想通过 Kudu API 编写和更新。这是maven依赖:
在下面的代码中,我不知道KuduContext
参数。
我在 spark2-shell 中的代码:
Spark 2.1 流式传输中的相同错误:
然后是错误:
org.apache.spark.SparkException:此 JVM 中只能运行一个 SparkContext(请参阅 SPARK-2243)。要忽略此错误,请设置 spark.driver.allowMultipleContexts = true。当前运行的 SparkContext 创建于:org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:860)
impala - 如何在 spark2 中读取 Impala 的 Kudu
我想在 spark2-shell 中阅读 Impala 的 Kudu,在很多方面都失败了:(
输入 spark2-shell:
我的代码:
顺便说一句,我得到了“impala::default.tablename” desc formatted tablename
。
输出:
apache-spark - 从 KuduRDD 过滤在 Spark 应用程序或 Kudu 服务器中本地发生?
如果我在 KuduRDD 上执行过滤器,那么首先 Spark 作业从 Kudu 表中读取所有数据并在 Spark 应用程序中执行过滤器作业,或者过滤发生在 Kudu 服务器上,而 Spark 应用程序只接收过滤后的数据?