问题标签 [apache-spark-2.1.1]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1965 浏览

pyspark - 无法在 virtualenv 中加载 pyspark

我在 python virtualenv 中安装了 pyspark。我还在 virtualenv 中安装了新发布的http://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html的 jupyterlab。我无法在 jupyter-notebook 中触发 pyspark,因为我可以使用 SparkContext 变量。

0 投票
0 回答
6005 浏览

exception-handling - pyspark 中的 try 和 except 块问题

我使用 spark-2.1 。下面是我的代码

下面是我正在尝试的

从另一个 schema2 中的另一个 table2 插入到 schema1 的 table1 中。

我将它放在一个 try 块中,这样如果它成功,它将退出到 except 条件将删除表并打印消息架构 1.table1 的整体加载失败。

现在的问题是,每当我执行上述语句时,它都会将表删除到 schema 中。pyspark 不受 python 的 try and catch 控制

我感觉没有尝试它会进入 catch 块并丢弃

请帮助跨越这个障碍

提前致谢 !

0 投票
0 回答
193 浏览

python-2.7 - 在 amazon-EMR 上使用 python 评估 spark-deep-learning 外部 jar

我一直在尝试让 spark-deep-learning 库在我的 EMR 集群上运行,以便能够与 Python 2.7 并行读取图像。我一直在寻找这个很长一段时间,但我未能找到解决方案。我尝试在 conf 中为 sparksession 设置不同的配置设置,但在尝试创建 SparkSession 对象时出现以下错误

以上是使用 jupyter notebook 时的结果。我尝试使用 spark submit 提交 py 文件,并添加我需要用作 --jars、--driver-class-path 和 --conf spark.executor.extraClassPath 的值的 jar,如此链接所述。这里是我提交的代码以及由此产生的导入错误:

该库在独立模式下运行良好,但是当我使用集群模式时,我不断收到上述错误之一。

我真的希望有人能帮我解决这个问题,因为我已经盯着它看了好几个星期了,我需要让它工作

谢谢!

0 投票
2 回答
1916 浏览

pyspark - 如何在 Pyspark 2.1 中使用窗口函数来计算星期几的出现次数

使用下面的 pyspark 数据集(2.1),如何使用窗口函数来计算当前记录的星期几在过去 28 天内出现的次数。

示例数据框:

可能的窗口

示例输出

0 投票
1 回答
1519 浏览

python - Pyspark 读取数据 - java.util.NoSuchElementException: spark.sql.execution.pandas.respectSessionTimeZone

我有一个在命令行中运行的程序,但我正在尝试设置 PyCharm 来单独测试它的功能。

我一定是配置了错误,因为每当我尝试读取任何数据(无论是配置单元查询还是 csv)时,都会出现错误。

这似乎可行,所以我使用 pandas 读取了我的 csv,并尝试将其转换为 spark Dataframe:

这是我的堆栈跟踪:

csv 中没有日期或时间,所以我不明白这与什么respectSessionTimeZone有关。

这个错误意味着什么,我该如何解决?

0 投票
0 回答
131 浏览

scala - 将 Batch Queries 的输出写入 Kafka for Spark 2.1.1 版

有人可以告诉我如何将批处理查询的输出加载到 kafka。

我在 stackoverflow 和其他文章中进行了很多研究,但我找不到 Spark 2.1.1 的任何内容。

对于更高版本的 spark,有一种简单的加载方法(链接)。但是我需要在 Spark 2.1.1 中进行操作。

谢谢你 。

0 投票
0 回答
37 浏览

apache-spark - Spark2 Datetime查找高效的数据结构

我有一个 Spark 应用程序,其记录包含以下信息:

  • 哈希- 项目的一些唯一标识符
  • 位置- 项目的位置
  • - 首次在该位置看到该项目的日期
  • To - 如果仍然存在则为 Null,如果项目已停止在该位置,则为日期

我只需要能够问这个问题:

日期时间 Y 的项目 X 在哪里

为快速查找索引此信息的最有效方法是什么?假设我每天有数十亿条包含项目哈希的记录,我需要用它们的位置来丰富这些记录。

我最简单的方法是存储上面的记录,按哈希分区(尽管可能有大约 1000 万条),然后加入我更大的数据源,其中哈希相同且日期>从和日期<到。这种日期比较虽然感觉应该有更好的解决方案。

关于如何以更好更有效的方式存储这些数据的任何建议?

0 投票
1 回答
68 浏览

pyspark - 保存的模型:LinearRegression 似乎不起作用

我正在使用 Azure 和 Spark 版本是 '2.1.1.2.6.2.3-1

我使用以下命令保存了我的模型:

当我尝试使用模型并重新加载它时

我得到的错误是这样的:

我发现的所有示例似乎都告诉我,我应该有能力使用已保存模型中的这些新数据进行预测,但我似乎错过了一步。

0 投票
1 回答
32 浏览

java - 是否可以将自定义 API 公开/添加到现有 Spark 的驱动程序 REST 端点?

Spark 公开了某些 API 端点(通常安装在 /api/v1)。他们是否以某种方式使用相同的 spark 服务器公开自定义端点?

(使用 Spark 2.1.1,结构化流)

0 投票
0 回答
258 浏览

apache-spark - spark executor 之间的任务分配不均

我在生产中使用 spark-streaming 2.2.1,在这个应用程序中,我从RabbitMQ读取数据并进行进一步处理,最后将其保存在 cassandra 中。所以,我面临这个奇怪的问题,其中一个节点上的执行者之间的任务数量没有均匀分布。我重新启动了流媒体,但问题仍然存在。在此处输入图像描述

正如你所看到的,10.10.4.72我有 2 个执行者。在41893端口上运行的那个已经完成了大约。其余节点(10.10.3.7310.10.3.72)上的任务数量加倍。在33451端口上运行的执行程序10.10.4.72只完成了 18 个任务。即使我重新启动火花流,这个问题仍然存在。

编辑问题 12 小时后,如下图所示,同一执行程序在此期间甚至没有处理任何任务。

在此处输入图像描述