问题标签 [apache-spark-1.6]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1518 浏览

apache-spark - 为什么从 Hive 读取失败并显示“java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found”?

我将 Spark v1.6.1 和 Hive v1.2.x 与 Python v2.7 一起使用

对于 Hive,我有一些表(ORC 文件)存储在 HDFS 中,一些存储在 S3 中。如果我们尝试加入 2 个表,其中一个在 HDFS 中,另一个在 S3 中,java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.s3a.S3AFileSystem not found则会抛出 a。

例如,这在查询 HDFS 中的 HIVE 表时有效。

这在查询 S3 中的 HIVE 表时有效。

下面的代码抛出了上面的代码RuntimeException

我们正在从 HDFS 迁移到 S3,这就是为什么存储支持 HIVE 表(基本上是 HDFS 和 S3 中的 ORC 文件)存在差异的原因。一件有趣的事情是,如果我们使用DBeaverbeeline客户端连接到 Hive 并发出联合查询,它就可以工作。我也可以sqlalchemy用来发出联合查询并获得结果。这个问题只显示在 Spark 的 sqlContext 上。

有关执行和环境的更多信息:此代码在Jupyter边缘节点上的笔记本中执行(已具有 spark、hadoop、hive、tez 等...设置/配置)。Python 环境由condaPython v2.7 管理。Jupyter 的启动pyspark方式如下。

当我转到下的 Spark 应用程序 UIEnvironment时,以下Classpath Entries内容如下。

  • /usr/hdp/2.4.2.0-258/spark/lib/datanucleus-api-jdo-3.2.6.jar
  • /usr/hdp/2.4.2.0-258/spark/lib/datanucleus-core-3.2.10.jar
  • /usr/hdp/2.4.2.0-258/spark/lib/datanucleus-rdbms-3.2.9.jar
  • /usr/hdp/2.4.2.0-258/spark/lib/spark-assembly-1.6.1.2.4.2.0-258-hadoop2.7.1.2.4.2.0-258.jar
  • /usr/hdp/current/hadoop-client/conf/
  • /usr/hdp/current/spark-historyserver/conf/

具有以下sun.boot.class.path值:/usr/jdk64/jdk1.8.0_60/jre/lib/resources.jar:/usr/jdk64/jdk1.8.0_60/jre/lib/rt.jar:/usr/jdk64/jdk1.8.0_60/jre/lib/sunrsasign.jar:/usr/jdk64/jdk1.8.0_60/jre/lib/jsse.jar:/usr/jdk64/jdk1.8.0_60/jre/lib/jce.jar:/usr/jdk64/jdk1.8.0_60/jre/lib/charsets.jar:/usr/jdk64/jdk1.8.0_60/jre/lib/jfr.jar:/usr/jdk64/jdk1.8.0_60/jre/classes

具有以下spark.executorEnv.PYTHONPATH值:/usr/hdp/2.4.2.0-258/spark/python/lib/py4j-0.9-src.zip:/usr/hdp/2.4.2.0-258/spark/python/:<CPS>{{PWD}}/pyspark.zip<CPS>{{PWD}}/py4j-0.9-src.zip

Hadoop 发行版通过 CDH:Hadoop 2.7.1.2.4.2.0-258

0 投票
2 回答
3952 浏览

java - 如何读取以空格分隔的文本文件并将其保存到 Hive?

我有一个如下所示的字符串。第一行是标题,其余是列值。我想从 String 创建一个数据框(Spark 1.6 和 Java7),并将 col3 和 col4 下的值转换为 DOUBLE 。

在为上述创建数据框后,我有两个字段位于第一行,其值为常量。

我想用架构(const1 int、const2 int、col1 double、col2 double、col3 double、col4 double、col5 double)将上述数据框写入配置单元表。我正在使用 Spark 1.6 和 Java7 。

0 投票
2 回答
536 浏览

apache-spark - 如何为 saveAsTable 使用不同的 Hive Metastore?

我正在使用使用 PySpark 的 Spark SQL (Spark 1.6.1),并且我需要从一个 Hive 元存储加载表并将数据帧的结果写入另一个 Hive 元存储。

我想知道如何为一个 spark SQL 脚本使用两个不同的元存储?

这是我的脚本的样子。

0 投票
1 回答
78 浏览

scala - 为什么从 Cassandra 表读取数据集比本地文件读取数据集时,Spark 应用程序执行时间更长?

我有以下代码,应用程序在生成结果后立即结束。

但是当我使用spark-cassandra-connector对 Cassandra 运行以下代码时,应用程序仅在大约 10 秒延迟后才结束。

版本详情

Spark 版本为 1.6.x

我的问题是,为什么在处理spark-cassandra-connector时会出现这种延迟?有什么办法可以避免这种延迟?还是这是版本问题?(我尝试了其他几个版本,但结果完好无损)

0 投票
1 回答
437 浏览

apache-spark - 如何在运行时找到 DStream 中值的模式?

我使用 Spark 1.6 和 Kafka 0.8.2.1。

我正在尝试使用 Spark Streaming 从 Kafka 获取一些数据并对这些数据进行一些操作。

为此,我应该知道所获取数据的架构,有什么方法可以做到这一点,或者我们可以通过使用字段名从流中获取值吗?

0 投票
3 回答
8805 浏览

scala - Spark CSV package not able to handle \n within fields

I have a CSV file which I am trying to load using Spark CSV package and it does not load data properly because few of the fields have \n within them for e.g. the following two rows

I am using the following code which is straightforward I am using parserLib as univocity as read in internet it solves multiple newline problem but it does not seems to be the case for me.

How do I replace newline within fields which starts with quotes. Is there any easier way?

0 投票
3 回答
2040 浏览

apache-spark - 为什么单个测试失败并显示“错误 XSDB6:另一个 Derby 实例可能已经启动了数据库”?

我使用 Spark 1.6。

我们有一个 HDFS 写入方法,它使用SqlContext. 现在我们需要切换到使用HiveContext. 当我们这样做时,现有的单元测试不会运行并给出错误

Error XSDB6: Another instance of Derby may have already booted the database <local path>\metastore_db

无论我是通过 IntelliJ 测试运行程序还是通过命令行上的 maven 运行单个测试,都会发生这种情况。

据我了解,当多个 HiveContexts 或多个进程尝试访问 metastore_db 时,就会出现此问题。但是我在本地机器上运行一个测试并且没有其他作业,所以我无法理解多个进程的来源

0 投票
1 回答
19173 浏览

apache-spark - 每种格式的写入或读取选项的参考在哪里?

我使用 Spark 1.6.1。

我们正在尝试使用 HiveContext 和 DataFrameWriter 将 ORC 文件写入 HDFS。虽然我们可以使用

我们宁愿做类似的事情

这样我们就可以根据使用此帮助程序库的应用程序灵活地更改格式或根路径。我们在哪里可以找到对可以传递给 DataFrameWriter 的选项的引用?我在这里的文档中什么也没找到

https://spark.apache.org/docs/1.6.0/api/java/org/apache/spark/sql/DataFrameWriter.html#options(java.util.Map)

0 投票
1 回答
324 浏览

apache-spark-mllib - 如何在没有 SparkContext 的情况下加载 spark.mllib 模型进行预测?

使用 Spark1.6.0 MLLib,我将构建一个模型(如 RandomForest)并保存到 hdfs,然后可以从 hdfs 加载随机森林模型以在没有 SparkContext 的情况下进行预测。现在,加载我们可以像这样使用的模型:

val loadModel = RandomForestModel.load(sc,modelpath)

有没有另一种方法可以在没有 sc 的情况下加载模型?谢谢!

0 投票
1 回答
2590 浏览

java - 如何注销 Spark UDF

我使用带有 Java 的 Spark 1.6.0。

我想注销 Spark UDF。有没有办法删除临时表sqlContext.drop(TemporaryTableName)

我试图从当前的 sqlContext 中获取所有函数(包括我们定义的 UDF),它可以工作,但是有没有办法取消注册自定义 UDF 'isNumeric'