问题标签 [shark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - 在 DSE 上配置 Spark/Shark 时出错
, 我已经安装了
1) scala-2.10.3
2) spark-1.0.0 使用以下变量更改了 spark-env.sh
我可以看到 Spark 大师。
3) 鲨鱼-0.9.1-bin-hadoop1
4) 在 DSE 中,Hive 版本是 Hive 0.11 Existing Hive-site.xml 是
5) 运行 Shark shell 时出现错误:
和
6) 在使用 -skipRddReload 运行 Shark shell 时 - 我能够获取 Shark shell 但无法连接配置单元并且无法执行任何命令。
并收到错误消息:
请详细说明如何在 Datastax 企业 (Cassandra) 上配置 spark/shark。
hadoop - 安装 HDFS 以在没有 YARN 的情况下与 SHARK 一起使用
我正在尝试安装 Apache Shark。要求之一是安装 HDFS。我不想使用 YARN 或 MESOS。我只想要HDFS。我的问题是:这是否意味着我只能安装 2.x 之前的 hadoop 发行版?如果有,是哪一个?
或者我可以使用 Hadoop 2.4 并以某种方式禁用 YARN?我不确定该怎么做。我能找到的所有教程似乎都使用 YARN。有人对如何仅在 2.x 中使用 HDFS 有任何建议吗?如果只想安装 HDFS,我需要哪个 hadoop 发行版?
scala - 在独立模式下安装 apache Shark 会导致 scala 错误
我基本上遵循https://github.com/amplab/shark/wiki/Running-Shark-Locally上的指南。我下载了 scala 我正在使用 ec2 amazon linux
我的 Shark/shark-0.8.0/conf/shark-env.sh 配置文件看起来像这样
我也将 JAVA_HOME 设置为 /usr/lib/jvm/jre
当我输入 java -version 它返回:
每次尝试使用以下命令运行鲨鱼:
我不明白为什么我会收到这么多错误。有人知道吗??
scala - 如何在 Scala 中将 Spark 的 TableRDD 转换为 RDD[Array[Double]]?
我正在尝试对SharkScala
执行操作。我正在创建一个 RDD,如下所示:
我需要将其转换为RDD[Array[Double]]
. 我试过toArray
了,但它似乎不起作用。
我还尝试将其转换为Array[String]
然后使用map
如下转换:
但这给了我一个RDD[Unit]
不能在函数中使用的 Spark。还有其他方法可以进行这种类型转换吗?
编辑我也尝试过使用toDouble
,但这给了我一个RDD[Double]
类型,而不是RDD[Array[Double]]
编辑2:
我设法做到了如下:
数据样本:
首先创建了一个 Spark Table RDD。
我利用将getString
其翻译为 a RDD[String]
,然后将其转换为RDD[Array[Double]]
.
hive - java.lang.ClassNotFoundException:org.apache.hadoop.hive.ql.io.HivePassThroughOutputFormat
我已按照此链接在 CDH5 上安装鲨鱼。我已经安装了它,但正如上面提到的那样:-
我在 hive 中创建了一个外部表来访问 Hbase 表,当我尝试使用鲨鱼时 -skipRddReload
,鲨鱼开始了,但是当我试图在鲨鱼中访问同一个外部表时出现错误
有什么办法可以摆脱这个吗?
编辑
配置 Hbase
我想在鲨鱼中访问这个 abc,有什么解决方案吗?
java - Spark Streaming 历史状态
我正在构建用于检测欺诈 ATM 卡交易的实时处理。为了有效地检测欺诈,逻辑需要通过卡的最后交易日期,每天(或过去 24 小时)的交易金额总和
用例之一是,如果在本国境外的卡交易超过该国家最后一次交易的 30 天,则发送警报作为可能的欺诈
因此试图将 Spark 流视为一种解决方案。为了实现这一点(可能我缺少关于函数式编程的想法),下面是我的伪代码
我在这里面临两个问题
1)如何进一步使用最后一个交易日期与同一张卡进行比较
2)如何保存数据,即使重新启动驱动程序,s2 的旧值也会恢复 3)updateStateByKey
可以用来维持历史状态?
我想我缺少火花流/函数式编程的关键点,即如何实现这种逻辑。
hadoop - 使用 Shark 查询 Cassandra 需要太多时间
我已经设置了一个两 (2) 节点 Cassandra 集群并尝试使用 Shark 执行查询。但是查询大约需要 10 分钟。但查询工作正常。(我使用 Cloudera 为我安装软件)
我试图通过更改 /opt/shark/shark/conf/shark-env.sh 中的一些参数(增加:SPARK_MEM 和 SHARK_MASTER_MEM)来调整鲨鱼。但没有运气。
如果有人能给我任何关于这种缓慢的线索,我将不胜感激?
以下是我为所涉及的各种软件安装的版本列表:
Cassandra:2.0.8
Shark:shark-0.9.1-bin-cdh4.6.0-fe75a886
Spark:SPARK-0.9.0-1.cdh4.6.0.p0.98
Hadoop:2.0.0-cdh4.7.0
硬件规格:
RAM:256GB
CPU:2x Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz(总共 20 个内核,HT)
cassandra - Shark 与 datastax enterprise 4.0.3 cassandra 集成
我正在尝试将 Shark 0.9.1(用于 hadoop 1)与 datastax 企业 4.0.3 Hadoop 节点上的 hive 集成。我已经成功安装并配置了 Scala 2.10.3 和 Spark 1.0.0。Scala 和 sparks shell 也运行良好。现在,当我尝试使用 SHARK_HOME/bin/shark 打开 Shark shell 时,出现错误
任何人都可以遇到这种问题。请建议。谢谢
oracle - 哪个 Hadoop 组件可以处理所有的 oracle 查询。?
哪个 hadoop 组件可以处理所有的预言机功能并且具有低延迟.. 我正在考虑使用 Presto、Drill 和 Shark 等组件.. 谁能说出上述哪种技术可以以低延迟处理预言机中的所有功能..或者至少哪个具有更高的兼容性并且可以处理oracle的所有功能。我可以灵活地使用一种以上的技术,但是对于使用哪种技术兼容哪种技术以及哪种技术可以提供低延迟感到困惑。 .?
hadoop - 与 Shark 服务器的 JDBC 连接挂起
我正在为我的鲨鱼集群使用以下配置
- 斯卡拉 2.10.3
- 火花 0.9.0
- 蜂巢 0.12.0-chd5.0.2
- 鲨鱼 0.9.0
Spark 和 Hive 通过 Cloudera 管理器 (CDH 5.0.2) 进行配置
我正在按照本教程连接到鲨鱼服务器: https ://cwiki.apache.org/confluence/display/Hive/HiveClient
我启动鲨鱼服务器如下:./shark --service sharkserver 9956
我可以使用上述教程中的代码连接到配置单元服务器。但是当我尝试连接到鲨鱼服务器时,它挂在这条线上
Connection con = DriverManager.getConnection("jdbc:hive://localhost:9956/default", "", "");
它不会给出任何错误或异常,只是程序卡在该行。