问题标签 [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 提高 Hive 中的写入性能
我正在对Hive
. 计算速度足够快,但我在Hive
. 我的结果集接近一千万条记录,将它们写入表需要几分钟。我已经尝试过缓存表和各种文件格式(ORC
AND RC
),但没有看到任何性能改进。
索引是不可能的,因为我正在使用Shark
. 很高兴了解 SO 社区关于我可以尝试提高写入性能的各种方法的建议。
谢谢,TM
scala - UDF 在 Spark SQL 中不起作用
我正在尝试计算 Spark SQL 上的 Jaccard 索引。我的表上Hive
有以下数据:
表 DDL:
我正在使用UDF
来自Brickhouse的。从 开始spark-shell
,我可以执行以下命令来创建临时函数。
我还将.jar
文件添加到CLASSPATH
for spark-shell
(in compute-classpath.sh
)。
当我列出函数时,我可以看到我创建的新函数。
接下来,我使用该jaccard_similarity
函数计算val
数组的 Jaccard 索引。
我收到以下错误:
我查看了Spark
来自 GitHub 的源代码。在datatypes.scala中,有以下代码:
我找不到任何关于array
Spark SQL 不支持的参考。如果任何人都可以分享有关如何使其工作的任何指示,那就太好了。
Hive
此外,该功能可以在shell 中完美运行。
更新(8 月 5 日):
我只是从 Github 上的 Master 分支构建 Spark。错误消息包含更多信息(例如scala.MatchError: ArrayType(StringType,false)
,而不是scala.MatchError: ArrayType(StringType)
)
我还查看了HiveInspectors.scala(第 212 行typeInfoConversions
)。那里似乎ArrayType
没有定义。
amazon-ec2 - 为什么在将数据写入 S3 时,在 EC2 上运行的 Shark 会给我一个“错误的 FS”错误
我正在使用提供的设置脚本在 Amazon EC2 上运行 Shark/Spark (0.9.1)。我正在从 S3 中读取数据,然后尝试将表写回 S3。可以很好地从 S3 读取数据(因此我的凭据是正确的),但是当我尝试将数据写入 S3 时,出现以下错误:
14/07/31 16:42:30 INFO scheduler.TaskSetManager:损失是由于 java.lang.IllegalArgumentException:错误的 FS:s3n://id:key@shadoop/tmp/hive-root/hive_2014-07-31_16- 39-29_825_6436105804053790400/_tmp.-ext-10000,预期:hdfs://ecmachine.compute-1.amazonaws.com:9000 [重复 3]
我尝试了几种不同的写出数据/表格的方法,但它们都产生了相同的错误。此特定错误是从 HQL 查询生成的,例如:
关于为什么 S3 被视为“错误的 FS”的任何想法?
java - 在 hdfs 上运行从 Amplab-shark 到 cassandra 的查询
请帮助在 hdfs 中对 cassandra 进行 Amplab-Shark 查询。
我可以成功运行:
- 使用数据库
- 显示表格;
- 等等
但不能运行任何选择语句,即:
select * from table;
我收到以下错误:
谢谢
cassandra - Spark 上 Amplab 鲨鱼的蜂巢内部错误
请...需要帮助。
我已按照步骤构建 spark 和 Shark 以从 hdfs/cassandra 查询数据。我在 hdfs 上有一个 cassandra 集群,可以成功查看数据库。但是不能运行select语句
鲨鱼>从calls_flow限制1中选择*;失败:Hive 内部错误:java.lang.RuntimeException(java.lang.ClassNotFoundException:org.apache.hadoop.hive.cassandra.input.cql.HiveCqlInputFormat)
帮助将不胜感激。
谢谢
环境:cassandra 2.0.8、spark-0.9.0、shark-0.9.0
bigdata - Shark 外表性能
在查询性能方面,从位于本地文件系统上的 Shark 中的外部表进行查询与使用位于 HDFS 上的数据相比如何?我计划使用单个高端服务器来运行鲨鱼查询,并且想知道是否绝对有必要安装 hadoop/hdfs。
hbase - 带有 HBase 的 Amplab 鲨鱼
什么是通过鲨鱼查询设置对 HBase 表的访问的好方法?我探索了一些旨在使用 Hive 设置 HBase 的文章,例如https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration,但不太确定这如何适用于 Shark。我主要是通过 Shark 从 HBase 中寻找读取的内容。任何帮助表示赞赏,谢谢。
hadoop - 有人可以解释一下吗:“Spark SQL 支持的用例与 Hive 不同。”
我指的是以下链接:Hive Support for Spark
它说 :
“Spark SQL 支持与 Hive 不同的用例。”
我不确定为什么会这样。这是否意味着作为 Hive 用户我不能通过 Spark SQL 使用 Spark 执行引擎?
一些问题:
- Spark SQL 使用 Hive 查询解析器。因此,理想情况下,它将支持所有 Hive 功能。
- 它会使用 Hive Metastore 吗?
- Hive 会使用 Spark 优化器还是会构建自己的优化器?
- Hive 会将 MR Jobs 翻译成 Spark 吗?还是使用其他范式?
java - Datastax DSE Cassandra、Spark、Shark、独立程序
我使用 Datastax Enterprise 4.5。我希望我的配置是正确的,就像在 datastax 网站上解释的那样。我可以使用 Windows 服务写入 Cassandra DB,这可行,但我无法使用 where 函数使用 Spark 进行查询。
我使用“./dse cassandra -k -t”(在 /bin 文件夹中)启动 Cassandra 节点(只有一个用于测试目的),因此 hadoop 和 spark 都在运行。我可以毫无问题地写入 Cassandra。
因此,当“where”不是 RowKey 时,您不能在 Cassandra 查询中使用“where”子句。所以我需要使用 Spark/Shark。我可以使用鲨鱼 (./dse shark) 启动和使用我需要的所有查询,但我需要用 Scala 或 Java 编写独立程序。
所以我尝试了这个链接:https ://github.com/datastax/spark-cassandra-connector
我可以查询一个简单的语句,例如:
这很好用,但如果我要求更多行或计数:
然后我得到这个异常:
当我在 Java 中尝试这个时,我遇到了同样的问题。有谁知道这个问题?我不知道数据库配置是否正确,或者 scala/Javaprogram 是否正常工作。也许某些端口 a 被阻止,但 7077 和 4040 是开放的。
旁注:如果我在 Cassandra DB 上启动 spark,我可以执行以下查询:
但是,如果我使用“where”子句,例如:
我得到这个例外:
你有什么想法吗?我以为我可以在 spark 中使用 where 子句?
谢谢!
apache-spark - 如何让 Spark/Shark 在 DSE 4.5.1 上启动
这最初是开箱即用的,然后 AWS 好心地为我关闭了这台服务器。所以我重建了它,并把它变成了新的工作跟踪器(它也是旧的工作跟踪器)。现在我不知道如何让 Spark/Shark 运行。只需键入即可获得dse shark
与添加环境变量相同的输出。我不确定缺少什么或在哪里设置哪些变量以使它们起作用。
更新:输出来自dsetool status
:
更新 2:
这是要求的其他文件:http: //pastie.org/9527227
更新 3: system.log 文件可在此处获得:http: //pastebin.com/TaRYUSf4