我正在编写此代码以获取指定表中计数的整数值:
sc = SparkContext("local", "spar")
hive_context = HiveContext(sc)
hive_context.sql("use zs_trainings_trainings_db")
df = hive_context.sql("select count(*) from ldg_sales")
我正在编写此代码以获取指定表中计数的整数值:
sc = SparkContext("local", "spar")
hive_context = HiveContext(sc)
hive_context.sql("use zs_trainings_trainings_db")
df = hive_context.sql("select count(*) from ldg_sales")
任何一个:
hive_context.table("sales").count
或者
hive_context.sql("select count(*) from ldg_sales").first()[0]
将数据框转换为 rdd,以便您可以在其上运行 map 任务以提取行值,例如 -
df = hive_context.sql("select count(*) as cnt from ldg_sales")
count = df.rdd.map(lambda _ : _.cnt).collect()[0]