如何将文本文件加载到 Apache Kudu 表?
源文件需要先在HDFS空间吗?
如果它与其他 hadoop 生态系统程序(即/hive、impala)不共享相同的 hdfs 空间,是否有 Apache Kudu 等效于:
hdfs dfs -put /path/to/file
在我尝试加载文件之前?
如何将文本文件加载到 Apache Kudu 表?
源文件需要先在HDFS空间吗?
如果它与其他 hadoop 生态系统程序(即/hive、impala)不共享相同的 hdfs 空间,是否有 Apache Kudu 等效于:
hdfs dfs -put /path/to/file
在我尝试加载文件之前?
该文件不需要先在HDFS中。可以从边缘节点/本地机器获取。Kudu类似于Hbase。它是一个实时存储,支持键索引记录查找和变异,但不能直接存储文本文件就像在 HDFS 中一样。对于 Kudu 存储文本文件的内容,需要对其进行解析和标记化。为此,您需要 Spark 执行/java api 以及 Nifi(或 Apache Gobblin)来执行处理然后存储它在 Kudu 表中。
或者
您可以将它与 Impala 集成,允许您使用 Impala 使用 Impala 的 SQL 语法从 Kudu 平板电脑中插入、查询、更新和删除数据,作为使用 Kudu API 构建自定义 Kudu 应用程序的替代方法。以下是步骤:
stored as KUDU
并将As Select
内容从 impala 复制到 kudu。在此链接中,您可以参考更多信息 - https://kudu.apache.org/docs/quickstart.html