我在 cassandra 中有一个大数据集,我使用 hive 分析数据并将数据发送到 hdfs 文件系统。我想知道是否可以按 appName 分组,并根据 appName 我将数据发送到不同的 hdfs 文件系统(请注意应用程序名称未预定义)
应用名称数据
a1 abc
a1 pqr
a1 qwe
我的
a2 数据
a2 abc
a2 纳米
a3 ewr
a3 asf
a4 abc123
a1 数据集 ->/apps/a1 a2 数据集 ->/apps/a2 等
我在 cassandra 中有一个大数据集,我使用 hive 分析数据并将数据发送到 hdfs 文件系统。我想知道是否可以按 appName 分组,并根据 appName 我将数据发送到不同的 hdfs 文件系统(请注意应用程序名称未预定义)
应用名称数据
a1 abc
a1 pqr
a1 qwe
我的
a2 数据
a2 abc
a2 纳米
a3 ewr
a3 asf
a4 abc123
a1 数据集 ->/apps/a1 a2 数据集 ->/apps/a2 等
动态分区:https ://cwiki.apache.org/confluence/display/Hive/Tutorial#Tutorial-DynamicpartitionInsert可能适合您。
您将无法在 HDFS 中选择路径,但不同的应用程序将转到不同的文件夹。