问题标签 [hivecontext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - HIVE CONTEXT 下的 LAG 函数抛出 java.lang.NullPointerException
下面的脚本 (Spark 1.6) 中止 java.lang.NullPointerException,主要是由于函数 LAG。请指教。
另一种方法是在 pyspark.sql.functions 下使用函数 when 和 isnull ,如果 isnull 则将延迟降至 0。
apache-spark - Spark中非常大的任务
我有一个程序可以将 excel 文件转换为 Spark DataFrame,然后以压缩的 ORC 格式将此文件写入我们的数据湖。请注意,我在使用 Spark 1.6.2 API 方面受到限制。
- 变量
sq
是一个HiveContext
- 变量
schema
包含StructType
小尺寸 (25ko) 的火花。 - 变量包含一个包含少量数据的 Spark
excelData
的 java 。List
Row
这是代码:
这是我的纱线日志:
这里发生了什么?我觉得序列化任务的大小太大了。
json - Spark sql从hdfs读取json文件失败
我的代码是这样的:
在 spark-shell 发生错误,我无法理解:
我该如何解决?谢谢
scala - HiveContext - 无法访问在 hive 中映射为外部表的 hbase 表
我正在尝试使用 Spark 中的 HiveContext 访问在 hive 中映射的 hbase 表。但我得到了ClassNotFoundException
例外.. 下面是我的代码。
我收到以下错误..
17/06/22 07:17:30 错误日志:initSerDe 中的错误:java.lang.ClassNotFoundException 类 org.apache.hadoop.hive.hbase.HBaseSerDe 未找到 java.lang.ClassNotFoundException:类 org.apache.hadoop.hive .hbase.HBaseSerDe 在 org.apache.hadoop.hive.metastore.MetaStoreUtils.getDeserializer(MetaStoreUtils.java:385) 的 org.apache.hadoop.hive.metastore.MetaStoreUtils.getDeserializer(MetaStoreUtils.java:385) 的 org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2120) 中找不到.hadoop.hive.ql.metadata.Table.getDeserializerFromMetaStore(Table.java:276) 在 org.apache.hadoop.hive.ql.metadata.Table.getDeserializer(Table.java:258) 在 org.apache.hadoop.hive .ql.metadata.Table.getCols(Table.java:605) at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1$$anonfun$3.apply(ClientWrapper.scala:342) at org .apache.spark.sql.hive。client.ClientWrapper$$anonfun$getTableOption$1$$anonfun$3.apply(ClientWrapper.scala:337) at scala.Option.map(Option.scala:145) at org.apache.spark.sql.hive.client.ClientWrapper$ $anonfun$getTableOption$1.apply(ClientWrapper.scala:337) 在 org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1.apply(ClientWrapper.scala:332) 在 org.apache.spark。 sql.hive.client.ClientWrapper$$anonfun$withHiveState$1.apply(ClientWrapper.scala:290) 在 org.apache.spark.sql.hive.client.ClientWrapper.liftedTree1$1(ClientWrapper.scala:237)apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1.apply(ClientWrapper.scala:332) at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$withHiveState$1.apply(ClientWrapper .scala:290) 在 org.apache.spark.sql.hive.client.ClientWrapper.liftedTree1$1(ClientWrapper.scala:237)apache.spark.sql.hive.client.ClientWrapper$$anonfun$getTableOption$1.apply(ClientWrapper.scala:332) at org.apache.spark.sql.hive.client.ClientWrapper$$anonfun$withHiveState$1.apply(ClientWrapper .scala:290) 在 org.apache.spark.sql.hive.client.ClientWrapper.liftedTree1$1(ClientWrapper.scala:237)
任何人都可以帮助我需要导入哪个类来读取 hbase 表。
pyspark - 过滤掉hivecontext.sql中的空字符串和空字符串
我正在使用 pyspark 和 hivecontext.sql,我想从我的数据中过滤掉所有 null 和空值。
所以我用简单的sql命令先过滤掉了空值,但是没有用。
我的代码:
但它在没有表达式“其中 column2 不为空”的情况下工作
错误:
我认为这是由于我的选择是错误的。
数据示例:
客观的:
Tks
pyspark - pypark中的数据框-如何将聚合函数应用于两列?
我在 pyspark 中使用 Dataframe。我有一张表,如下表 1。我需要获取表 2。其中:
- num_category - 每个 id 有多少个不同的类别
- sum(count) - 它是表 1 中每个 id 的第三列的总和。
例子:
表格1
表 2
我尝试:
错误:
apache-spark - Spark HiveContext:插入覆盖它读取的同一个表
我想在 HiveContext 中使用 PySpark 应用 SCD1 和 SCD2。在我的方法中,我正在读取增量数据和目标表。阅读后,我将加入他们的 upsert 方法。我正在对所有源数据帧执行 registerTempTable。我正在尝试将最终数据集写入目标表,但我面临的问题是在读取它的表中无法进行插入覆盖。
请为此提出一些解决方案。我不想将中间数据写入物理表并再次读取。
是否有任何属性或方法来存储最终数据集而不保持对从中读取的表的依赖关系。这样,可能会覆盖表。
请建议。
hadoop - Hive Merge 命令在 Spark HiveContext 中不起作用
我在 1.6.3 spark 版本中使用 Spark HiveContext 运行 hive 合并命令,但它失败并出现以下错误。
我不确定在 spark 的 HiveContext 中是否支持 ACID 事务合并命令。
对此的任何帮助将不胜感激。
apache-spark - 无法使用 spark 在 hive 上写入数据
我正在使用火花1.6。我正在使用 spark 上下文创建 hivecontext。当我将数据保存到配置单元时,它会出错。我正在使用cloudera vm。我的蜂巢位于 cloudera vm 内,并在我的系统上启动。我可以使用 IP 访问虚拟机。我已经在 vm 上启动了 thrift 服务器和 hiveserver2。我有用户节俭服务器 urihive.metastore.uris
我收到以下错误:
apache-spark - Spark HiveContext:Spark 引擎还是 Hive 引擎?
我想了解 spark hiveContext
。hiveContext
当我们使用like编写查询时
它是使用 Spark 引擎还是 Hive 引擎?我相信上面的查询是用 Spark 引擎执行的。但如果是这样的话,为什么我们需要数据框?
我们可以在sqlContext.sql("")
不使用数据帧的情况下盲目地复制所有配置单元查询并运行。
通过 DataFrames,我的意思是这样TableA.join(TableB, a === b)
我们甚至可以使用 SQL 命令执行聚合。任何人都可以澄清这个概念吗?如果使用数据框连接而不是sqlContext.sql()
连接有什么好处?加入只是一个例子。:)