问题标签 [hivecontext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 通过 hiveContext 在 Spark Job 中使用 Hive 函数
我正在使用 Hive 1.2 和 Spark 1.4.1。以下查询通过 Hive CLI 运行良好:
但是当我尝试在 pyspark 作业中通过 HiveContext 使用它时,它给了我一个错误:
代码片段:
有没有办法在 pyspark 中获取当前日期或时间戳?我尝试导入日期、日期时间,但它总是抛出一个错误,说找不到函数。
我尝试在 pyspark 1.5 Sandbox 的数据框中使用 current_date,但后来我也得到了一个不同的错误。
错误:
请指教。
sparkr - 使用 HiveContext 选择除 Spark 中包含最小值的行之外的行
我有一个包含时间戳和机器 ID 的 Spark 数据框。我希望从每个组中删除最低的时间戳值。我尝试了以下代码:
但是会出现以下错误:
问题是什么?如果 HiveContext 不支持 EXCEPT 关键字,那么在 HiveContext 中执行相同操作的同义方式是什么?
python - 在 Python 中以编程方式启动 HiveThriftServer
在 spark-shell (scala) 中,我们导入 org.apache.spark.sql.hive.thriftserver._ 用于以编程方式为特定的 hive 上下文启动 Hive Thrift 服务器,如 HiveThriftServer2.startWithContext(hiveContext) 以公开注册的临时表那个特定的会话。
我们如何使用 python 做同样的事情?python 上是否有用于导入 HiveThriftServer 的包/api?任何其他想法/建议表示赞赏。
我们使用 pyspark 创建数据框
谢谢
拉维·纳拉亚南
apache-spark - Spark SQL(通过 HiveContext 进行 Hive 查询)总是创建 31 个分区
我正在使用 Spark 代码中的 HiveContext 运行配置单元查询。无论我运行哪个查询以及它有多少数据,它总是会生成 31 个分区。有人知道原因吗?是否有预定义/可配置的设置?我本质上需要更多的分区。
我使用这个代码片段来执行蜂巢查询:
varpairedRDD = hqlContext.sql(hql).rdd.map(...)
我正在使用 Spark 1.3.1
谢谢,尼丁
scala - 如何将 hiveContext 作为参数传递给函数 spark scala
我在 Scala 中创建了一个hiveContext
inmain()
函数,我需要将参数传递hiveContext
给其他函数,这是结构:
但它不起作用。函数read()
在内部被调用main()
。
任何想法?
scala - 如何使用一个 RDD 的结果过滤其他 RDD 记录?
我想从目标表中过滤日期大于源表的 min(date) 的记录(两个表中都有共同的 id)
如何使用 target.date >= source.min_date 过滤 cm_record 的记录?
我尝试了以下步骤:
没有任何效果
解决方案:
sql - spark中的hivecontext
我正在尝试在火花中使用 hivecontext。以下语句运行良好:
但是,当我运行以下语句时,
我收到以下错误:
Java 包对象不可调用
可能是什么问题呢?
apache-spark - 修改源表时的 Spark 缓存行为
我有一个蜂巢表(“人”),它缓存在 Spark 中。
sqlContext 是HiveContext。
在cacheTable("person")语句之后插入的条目会被缓存吗?换句话说, ("Foo", 25) 条目是否缓存在 Spark 中?
如果没有,我怎样才能只缓存以后插入的条目?我不想先取消缓存,然后再缓存整个表。
hive - 在 hive 中将字符串转换为 bigint 会返回不完整的数据
如何获得蜂巢的全部价值?即cast('0024' as bigint)
只会给出24
,但我需要完整0024
的作为我的输出。
知道怎么做吗?
pyspark - Pyspark:在动态配置单元查询中获取 current_timestamp
我正在使用 python 程序准备 Spark,该程序基于连接从 2 个表中插入数据。目标表的最后一列有一个时间戳字段,其值为创建时间戳。
我尝试了 current_timestamp 和 from_unixtime(unix_timestamp())。这两个功能似乎都不起作用。我现在试过了()。
例如,HiveContext(sc).sql("SELECT" + from_unixtime(unix_timestamp()) + "") 这个语句在 pyspark 中出现错误,出现“NameError: name 'from_unixtime' is not defined” 我已经导入了 pyspark.sql.function
有没有办法将时间戳值插入目标表?我的查询包含从我在 HiveContext 中运行的 2 个表中选择的插入。
预先感谢!!!