我使用 Spark SQL 从 Cassandra 数据库中检索数据:
DataFrame customers = sqlContext.cassandraSql("SELECT email, first_name, last_name FROM customer " +
"WHERE CAST(store_id as string) = '" + storeId + "'");
之后我进行了一些过滤,我想将这些数据保存到另一个 Cassandra 表中,如下所示:
store_id uuid,
report_name text,
report_time timestamp,
sharder int,
customer_email text,
count int static,
firts_name text,
last_name text,
PRIMARY KEY ((store_id, report_name, report_time, sharder), customer_email)
DataFrame
保存到新表时如何添加这些附加属性?另外,使用此示例对 Cassandra 长行进行分片的最佳做法是什么?我希望在 4k-6k 记录中DataFrame
,因此必须对长行进行分片,但我不确定计算记录然后更改sharder
一定数量的项目是否是 Spark 或 Cassandra 中的最佳实践。