问题标签 [hivecontext]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

106 问题

0 投票

1 回答

941 浏览

apache-spark - 通过 hiveContext 在 Spark Job 中使用 Hive 函数

我正在使用 Hive 1.2 和 Spark 1.4.1。以下查询通过 Hive CLI 运行良好：

但是当我尝试在 pyspark 作业中通过 HiveContext 使用它时，它给了我一个错误：

代码片段：

有没有办法在 pyspark 中获取当前日期或时间戳？我尝试导入日期、日期时间，但它总是抛出一个错误，说找不到函数。

我尝试在 pyspark 1.5 Sandbox 的数据框中使用 current_date，但后来我也得到了一个不同的错误。

错误：

请指教。

0 投票

1 回答

596 浏览

sparkr - 使用 HiveContext 选择除 Spark 中包含最小值的行之外的行

我有一个包含时间戳和机器 ID 的 Spark 数据框。我希望从每个组中删除最低的时间戳值。我尝试了以下代码：

但是会出现以下错误：

问题是什么？如果 HiveContext 不支持 EXCEPT 关键字，那么在 HiveContext 中执行相同操作的同义方式是什么？

sparkr hivecontext

0 投票

1 回答

1368 浏览

python - 在 Python 中以编程方式启动 HiveThriftServer

在 spark-shell (scala) 中，我们导入 org.apache.spark.sql.hive.thriftserver._ 用于以编程方式为特定的 hive 上下文启动 Hive Thrift 服务器，如 HiveThriftServer2.startWithContext(hiveContext) 以公开注册的临时表那个特定的会话。

我们如何使用 python 做同样的事情？python 上是否有用于导入 HiveThriftServer 的包/api？任何其他想法/建议表示赞赏。

我们使用 pyspark 创建数据框

谢谢

拉维·纳拉亚南

python scala hive thrift hivecontext

0 投票

1 回答

240 浏览

apache-spark - Spark SQL（通过 HiveContext 进行 Hive 查询）总是创建 31 个分区

我正在使用 Spark 代码中的 HiveContext 运行配置单元查询。无论我运行哪个查询以及它有多少数据，它总是会生成 31 个分区。有人知道原因吗？是否有预定义/可配置的设置？我本质上需要更多的分区。

我使用这个代码片段来执行蜂巢查询：

varpairedRDD = hqlContext.sql(hql).rdd.map(...)

我正在使用 Spark 1.3.1

谢谢，尼丁

apache-spark apache-spark-sql hivecontext

0 投票

2 回答

1362 浏览

scala - 如何将 hiveContext 作为参数传递给函数 spark scala

我在 Scala 中创建了一个hiveContextinmain()函数，我需要将参数传递hiveContext给其他函数，这是结构：

但它不起作用。函数read()在内部被调用main()。

任何想法？

scala apache-spark hivecontext

0 投票

0 回答

89 浏览

scala - 如何使用一个 RDD 的结果过滤其他 RDD 记录？

我想从目标表中过滤日期大于源表的 min(date) 的记录（两个表中都有共同的 id）

如何使用 target.date >= source.min_date 过滤 cm_record 的记录？

我尝试了以下步骤：

没有任何效果

解决方案：

scala apache-spark hivecontext

0 投票

0 回答

341 浏览

sql - spark中的hivecontext

我正在尝试在火花中使用 hivecontext。以下语句运行良好：

但是，当我运行以下语句时，

我收到以下错误：

Java 包对象不可调用

可能是什么问题呢？

sql apache-spark hiveql hivecontext

0 投票

0 回答

157 浏览

apache-spark - 修改源表时的 Spark 缓存行为

我有一个蜂巢表（“人”），它缓存在 Spark 中。

sqlContext 是HiveContext。

在cacheTable("person")语句之后插入的条目会被缓存吗？换句话说， ("Foo", 25) 条目是否缓存在 Spark 中？

如果没有，我怎样才能只缓存以后插入的条目？我不想先取消缓存，然后再缓存整个表。

apache-spark apache-spark-sql spark-dataframe hivecontext

0 投票

0 回答

378 浏览

hive - 在 hive 中将字符串转换为 bigint 会返回不完整的数据

如何获得蜂巢的全部价值？即cast('0024' as bigint)只会给出24，但我需要完整0024的作为我的输出。

知道怎么做吗？

hive hiveql apache-hive hivecontext spark-hive

0 投票

1 回答

1264 浏览

pyspark - Pyspark：在动态配置单元查询中获取 current_timestamp

我正在使用 python 程序准备 Spark，该程序基于连接从 2 个表中插入数据。目标表的最后一列有一个时间戳字段，其值为创建时间戳。

我尝试了 current_timestamp 和 from_unixtime(unix_timestamp())。这两个功能似乎都不起作用。我现在试过了（）。

例如，HiveContext(sc).sql("SELECT" + from_unixtime(unix_timestamp()) + "") 这个语句在 pyspark 中出现错误，出现“NameError: name 'from_unixtime' is not defined” 我已经导入了 pyspark.sql.function

有没有办法将时间戳值插入目标表？我的查询包含从我在 HiveContext 中运行的 2 个表中选择的插入。

预先感谢！！！

pyspark hivecontext

1 2 3 4 5 6 7 8 9 10

问题标签 [hivecontext]

Reference