问题标签 [hivecontext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
941 浏览

apache-spark - 通过 hiveContext 在 Spark Job 中使用 Hive 函数

我正在使用 Hive 1.2 和 Spark 1.4.1。以下查询通过 Hive CLI 运行良好:

但是当我尝试在 pyspark 作业中通过 HiveContext 使用它时,它给了我一个错误:

代码片段:

有没有办法在 pyspark 中获取当前日期或时间戳?我尝试导入日期、日期时间,但它总是抛出一个错误,说找不到函数。

我尝试在 pyspark 1.5 Sandbox 的数据框中使用 current_date,但后来我也得到了一个不同的错误。

错误:

请指教。

0 投票
1 回答
596 浏览

sparkr - 使用 HiveContext 选择除 Spark 中包含最小值的行之外的行

我有一个包含时间戳和机器 ID 的 Spark 数据框。我希望从每个组中删除最低的时间戳值。我尝试了以下代码:

但是会出现以下错误:

问题是什么?如果 HiveContext 不支持 EXCEPT 关键字,那么在 HiveContext 中执行相同操作的同义方式是什么?

0 投票
1 回答
1368 浏览

python - 在 Python 中以编程方式启动 HiveThriftServer

在 spark-shell (scala) 中,我们导入 org.apache.spark.sql.hive.thriftserver._ 用于以编程方式为特定的 hive 上下文启动 Hive Thrift 服务器,如 HiveThriftServer2.startWithContext(hiveContext) 以公开注册的临时表那个特定的会话。

我们如何使用 python 做同样的事情?python 上是否有用于导入 HiveThriftServer 的包/api?任何其他想法/建议表示赞赏。

我们使用 pyspark 创建数据框

谢谢

拉维·纳拉亚南

0 投票
1 回答
240 浏览

apache-spark - Spark SQL(通过 HiveContext 进行 Hive 查询)总是创建 31 个分区

我正在使用 Spark 代码中的 HiveContext 运行配置单元查询。无论我运行哪个查询以及它有多少数据,它总是会生成 31 个分区。有人知道原因吗?是否有预定义/可配置的设置?我本质上需要更多的分区。

我使用这个代码片段来执行蜂巢查询:

varpairedRDD = hqlContext.sql(hql).rdd.map(...)

我正在使用 Spark 1.3.1

谢谢,尼丁

0 投票
2 回答
1362 浏览

scala - 如何将 hiveContext 作为参数传递给函数 spark scala

我在 Scala 中创建了一个hiveContextinmain()函数,我需要将参数传递hiveContext给其他函数,这是结构:

但它不起作用。函数read()在内部被调用main()

任何想法?

0 投票
0 回答
89 浏览

scala - 如何使用一个 RDD 的结果过滤其他 RDD 记录?

我想从目标表中过滤日期大于源表的 min(date) 的记录(两个表中都有共同的 id)

如何使用 target.date >= source.min_date 过滤 cm_record 的记录?

我尝试了以下步骤:

没有任何效果

解决方案:

0 投票
0 回答
341 浏览

sql - spark中的hivecontext

我正在尝试在火花中使用 hivecontext。以下语句运行良好:

但是,当我运行以下语句时,

我收到以下错误:

Java 包对象不可调用

可能是什么问题呢?

0 投票
0 回答
157 浏览

apache-spark - 修改源表时的 Spark 缓存行为

我有一个蜂巢表(“人”),它缓存在 Spark 中。

sqlContext 是HiveContext

在cacheTable("person")语句之后插入的条目会被缓存吗?换句话说, ("Foo", 25) 条目是否缓存在 Spark 中?

如果没有,我怎样才能只缓存以后插入的条目?我不想先取消缓存,然后再缓存整个表。

0 投票
0 回答
378 浏览

hive - 在 hive 中将字符串转换为 bigint 会返回不完整的数据

如何获得蜂巢的全部价值?即cast('0024' as bigint)只会给出24,但我需要完整0024的作为我的输出。

知道怎么做吗?

0 投票
1 回答
1264 浏览

pyspark - Pyspark:在动态配置单元查询中获取 current_timestamp

我正在使用 python 程序准备 Spark,该程序基于连接从 2 个表中插入数据。目标表的最后一列有一个时间戳字段,其值为创建时间戳。

我尝试了 current_timestamp 和 from_unixtime(unix_timestamp())。这两个功能似乎都不起作用。我现在试过了()。

例如,HiveContext(sc).sql("SELECT" + from_unixtime(unix_timestamp()) + "") 这个语句在 pyspark 中出现错误,出现“NameError: name 'from_unixtime' is not defined” 我已经导入了 pyspark.sql.function

有没有办法将时间戳值插入目标表?我的查询包含从我在 HiveContext 中运行的 2 个表中选择的插入。

预先感谢!!!