问题标签 [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
755 浏览

apache-spark - 在 spark 结构化流 forEachWriter 中创建 Dataframe 以插入 kudu 表问题

我有一个问题,我尝试寻找解决方案,但无法解决任何问题,我希望获得任何 *pointers。

所以我正在尝试将 Spark 结构化流与 Apache Kudu 集成,我正在从 Kafka 读取流并进行一些处理,现在应该写入 Kudu 表,问题是 Spark 结构化流不提供对 Kudu 接收器的支持(即我知道吗?),我正在使用 foreach 编写器,但是一旦尝试在“ForeachWriter.process()”中创建一个数据框,它就会挂起并且永远不会继续

0 投票
1 回答
187 浏览

apache-spark - Kudu 嵌套字段

我对带有嵌套字段的 Kudu 有疑问。

我有来自 Kafka 的 JSON,如下所示:

dfpfield 有一个嵌套对象,我想通过 Flume 将这个对象插入到 kudu

我知道 kudu 不支持嵌套字段,并且支持二进制列。我需要做什么?

  1. 将字段转换dfp为二进制格式并读取例如 scala spark?
  2. 将 JSON 转换为扁平格式(但在许多情况下并不是最好的问题,例如带有产品 ID、名称和其他的流式产品购买或页面中的产品视图)。
0 投票
1 回答
146 浏览

impala - 如何在 DC/OS 中使用 Impala 配置 apache kudu?

我们需要在 DC/OS 中配置 Kudu master 和 kudu tablet server。我们需要
的架构类似于: 在此处输入

如何在 DC/OS 中配置服务以正确扩展。我们需要复制 Impala Daemon、kudu Tablet Server 和 Hadoop Data Node。

0 投票
0 回答
96 浏览

impala - impala 扫描(READ_LATEST 模式)不一致是否仅在领导者更改期间出现?

当我尝试使用 impala 传输一次海量数据(约 100G)并立即选择 count(1)时,我得到了错误的总数。然后我再次执行相同的sql,总数是正确的。

我想知道除了leader change之外,还有其他内部操作会导致扫描不一致吗?如果我将 impala 配置 kudu_read_mode: READ_LATEST 更改为 kudu_read_mode: READ_AT_SNAPSHOT,那么 impala 将传输的时间戳是多少?如果 READ_AT_SNAPSHOT 可以解决问题?

我正在使用 impala 2.10.0 + kudu 1.5.0。

0 投票
1 回答
71 浏览

hadoop - 具有远程部署的 Hadoop 键值存储

我的应用程序是通过 spark-submit 在 yarn-cluster 模式下使用 Kerberos 密钥表和本指南的主体从远程 pc 启动的:https ://spark.apache.org/docs/latest/running-on-yarn.html 。这种方法的优点是我在任何集群上都有自己的 spark 版本。

是否可以仅通过运行带有 HADOOP_CONF_DIR/YARN_CONF_DIR 配置的 bash 脚本自动将 Ignite/Hazelcast/Accumulo/Kudu 或其他具有随机读/写访问权限的 NoSQL DB 部署到没有 sftp/ssh 的 Hadoop YARN 集群中?

0 投票
1 回答
647 浏览

sqoop - 导入到 kudu 表的 sqoop 语法

我们想测试 Kudu,需要导入数据。Sqoop 似乎是正确的选择。我找到了可以导入 Kudu 的参考资料,但没有具体说明。有什么方法可以使用 Sqoop 导入 Kudu 吗?

0 投票
3 回答
1591 浏览

hdfs - 将数据从 HDFS 加载到 Kudu

我正在尝试将数据加载到 Kudu 表,但得到一个奇怪的结果。

在 Impala 控制台中,我从 Sqoop 导入的四个 HDFS 文件创建了一个外部表:

一个 SELECT COUNT(*) 告诉我有很多行存在。查询时数据看起来不错。

我使用标准选择复制结果

SELECT COUNT(*) 告诉我 impala_kudu.DATEDIM 有四行(HDFS 中的文件数不是表中的行数。

有任何想法吗?

0 投票
1 回答
1492 浏览

scala - 如何在 Spark 2.1 中通过 kudu API 编写和更新

我想通过 Kudu API 编写和更新。这是maven依赖:

在下面的代码中,我不知道KuduContext参数。

我在 spark2-shell 中的代码:

Spark 2.1 流式传输中的相同错误:

然后是错误:

org.apache.spark.SparkException:此 JVM 中只能运行一个 SparkContext(请参阅 SPARK-2243)。要忽略此错误,请设置 spark.driver.allowMultipleContexts = true。当前运行的 SparkContext 创建于:org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:860)

0 投票
1 回答
1978 浏览

impala - 如何在 spark2 中读取 Impala 的 Kudu

我想在 spark2-shell 中阅读 Impala 的 Kudu,在很多方面都失败了:(

输入 spark2-shell:

我的代码:

顺便说一句,我得到了“impala::default.tablename” desc formatted tablename

输出:

0 投票
1 回答
292 浏览

apache-spark - 从 KuduRDD 过滤在 Spark 应用程序或 Kudu 服务器中本地发生?

如果我在 KuduRDD 上执行过滤器,那么首先 Spark 作业从 Kudu 表中读取所有数据并在 Spark 应用程序中执行过滤器作业,或者过滤发生在 Kudu 服务器上,而 Spark 应用程序只接收过滤后的数据?