问题标签 [apache-kudu]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 问题

0 投票

0 回答

755 浏览

apache-spark - 在 spark 结构化流 forEachWriter 中创建 Dataframe 以插入 kudu 表问题

我有一个问题，我尝试寻找解决方案，但无法解决任何问题，我希望获得任何 *pointers。

所以我正在尝试将 Spark 结构化流与 Apache Kudu 集成，我正在从 Kafka 读取流并进行一些处理，现在应该写入 Kudu 表，问题是 Spark 结构化流不提供对 Kudu 接收器的支持（即我知道吗？），我正在使用 foreach 编写器，但是一旦尝试在“ForeachWriter.process（）”中创建一个数据框，它就会挂起并且永远不会继续

2017-11-15T08:33:01.787

0 投票

1 回答

187 浏览

apache-spark - Kudu 嵌套字段

我对带有嵌套字段的 Kudu 有疑问。

我有来自 Kafka 的 JSON，如下所示：

dfpfield 有一个嵌套对象，我想通过 Flume 将这个对象插入到 kudu

我知道 kudu 不支持嵌套字段，并且支持二进制列。我需要做什么？

将字段转换dfp为二进制格式并读取例如 scala spark？
将 JSON 转换为扁平格式（但在许多情况下并不是最好的问题，例如带有产品 ID、名称和其他的流式产品购买或页面中的产品视图）。

apache-spark nested apache-kudu

2017-11-16T13:14:08.047

0 投票

1 回答

146 浏览

impala - 如何在 DC/OS 中使用 Impala 配置 apache kudu？

我们需要在 DC/OS 中配置 Kudu master 和 kudu tablet server。我们需要
的架构类似于：在此处输入

如何在 DC/OS 中配置服务以正确扩展。我们需要复制 Impala Daemon、kudu Tablet Server 和 Hadoop Data Node。

impala dcos apache-kudu

2017-11-28T15:41:41.193

0 投票

0 回答

96 浏览

impala - impala 扫描（READ_LATEST 模式）不一致是否仅在领导者更改期间出现？

当我尝试使用 impala 传输一次海量数据（约 100G）并立即选择 count(1)时，我得到了错误的总数。然后我再次执行相同的sql，总数是正确的。

我想知道除了leader change之外，还有其他内部操作会导致扫描不一致吗？如果我将 impala 配置 kudu_read_mode: READ_LATEST 更改为 kudu_read_mode: READ_AT_SNAPSHOT，那么 impala 将传输的时间戳是多少？如果 READ_AT_SNAPSHOT 可以解决问题？

我正在使用 impala 2.10.0 + kudu 1.5.0。

impala raft apache-kudu

2017-12-05T01:05:16.593

0 投票

1 回答

71 浏览

hadoop - 具有远程部署的 Hadoop 键值存储

我的应用程序是通过 spark-submit 在 yarn-cluster 模式下使用 Kerberos 密钥表和本指南的主体从远程 pc 启动的：https ://spark.apache.org/docs/latest/running-on-yarn.html 。这种方法的优点是我在任何集群上都有自己的 spark 版本。

是否可以仅通过运行带有 HADOOP_CONF_DIR/YARN_CONF_DIR 配置的 bash 脚本自动将 Ignite/Hazelcast/Accumulo/Kudu 或其他具有随机读/写访问权限的 NoSQL DB 部署到没有 sftp/ssh 的 Hadoop YARN 集群中？

hadoop hadoop-yarn hazelcast ignite apache-kudu

2017-12-13T14:34:56.863

0 投票

1 回答

647 浏览

sqoop - 导入到 kudu 表的 sqoop 语法

我们想测试 Kudu，需要导入数据。Sqoop 似乎是正确的选择。我找到了可以导入 Kudu 的参考资料，但没有具体说明。有什么方法可以使用 Sqoop 导入 Kudu 吗？

sqoop apache-kudu

2017-12-13T19:10:02.243

0 投票

3 回答

1591 浏览

hdfs - 将数据从 HDFS 加载到 Kudu

我正在尝试将数据加载到 Kudu 表，但得到一个奇怪的结果。

在 Impala 控制台中，我从 Sqoop 导入的四个 HDFS 文件创建了一个外部表：

一个 SELECT COUNT(*) 告诉我有很多行存在。查询时数据看起来不错。

我使用标准选择复制结果

SELECT COUNT(*) 告诉我 impala_kudu.DATEDIM 有四行（HDFS 中的文件数不是表中的行数。

有任何想法吗？

hdfs impala sqoop apache-kudu

2017-12-19T16:17:18.377

0 投票

1 回答

1492 浏览

scala - 如何在 Spark 2.1 中通过 kudu API 编写和更新

我想通过 Kudu API 编写和更新。这是maven依赖：

在下面的代码中，我不知道KuduContext参数。

我在 spark2-shell 中的代码：

Spark 2.1 流式传输中的相同错误：

然后是错误：

org.apache.spark.SparkException：此 JVM 中只能运行一个 SparkContext（请参阅 SPARK-2243）。要忽略此错误，请设置 spark.driver.allowMultipleContexts = true。当前运行的 SparkContext 创建于：org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:860)

scala apache-spark apache-kudu

2018-01-09T11:42:30.353

0 投票

1 回答

1978 浏览

impala - 如何在 spark2 中读取 Impala 的 Kudu

我想在 spark2-shell 中阅读 Impala 的 Kudu，在很多方面都失败了:(

输入 spark2-shell：

我的代码：

顺便说一句，我得到了“impala::default.tablename” desc formatted tablename。

输出：

impala apache-spark-2.0 apache-kudu

2018-01-10T09:56:41.650

0 投票

1 回答

292 浏览

apache-spark - 从 KuduRDD 过滤在 Spark 应用程序或 Kudu 服务器中本地发生？

如果我在 KuduRDD 上执行过滤器，那么首先 Spark 作业从 Kudu 表中读取所有数据并在 Spark 应用程序中执行过滤器作业，或者过滤发生在 Kudu 服务器上，而 Spark 应用程序只接收过滤后的数据？

apache-spark apache-kudu

2018-01-20T16:28:30.067

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-kudu]

Reference