问题标签 [apache-spark-2.1.1]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

10 问题

0 投票

2 回答

1965 浏览

pyspark - 无法在 virtualenv 中加载 pyspark

我在 python virtualenv 中安装了 pyspark。我还在 virtualenv 中安装了新发布的http://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html的 jupyterlab。我无法在 jupyter-notebook 中触发 pyspark，因为我可以使用 SparkContext 变量。

2018-02-24T05:02:31.243

0 投票

0 回答

6005 浏览

exception-handling - pyspark 中的 try 和 except 块问题

我使用 spark-2.1 。下面是我的代码

下面是我正在尝试的

从另一个 schema2 中的另一个 table2 插入到 schema1 的 table1 中。

我将它放在一个 try 块中，这样如果它成功，它将退出到 except 条件将删除表并打印消息架构 1.table1 的整体加载失败。

现在的问题是，每当我执行上述语句时，它都会将表删除到 schema 中。pyspark 不受 python 的 try and catch 控制

我感觉没有尝试它会进入 catch 块并丢弃

请帮助跨越这个障碍

提前致谢！

exception-handling hive pyspark apache-spark-2.1.1

2018-03-01T08:57:36.073

0 投票

0 回答

193 浏览

python-2.7 - 在 amazon-EMR 上使用 python 评估 spark-deep-learning 外部 jar

我一直在尝试让 spark-deep-learning 库在我的 EMR 集群上运行，以便能够与 Python 2.7 并行读取图像。我一直在寻找这个很长一段时间，但我未能找到解决方案。我尝试在 conf 中为 sparksession 设置不同的配置设置，但在尝试创建 SparkSession 对象时出现以下错误

以上是使用 jupyter notebook 时的结果。我尝试使用 spark submit 提交 py 文件，并添加我需要用作 --jars、--driver-class-path 和 --conf spark.executor.extraClassPath 的值的 jar，如此链接所述。这里是我提交的代码以及由此产生的导入错误：

该库在独立模式下运行良好，但是当我使用集群模式时，我不断收到上述错误之一。

我真的希望有人能帮我解决这个问题，因为我已经盯着它看了好几个星期了，我需要让它工作

谢谢！

python-2.7 amazon-web-services apache-spark amazon-emr apache-spark-2.1.1

2018-04-05T11:36:35.180

0 投票

2 回答

1916 浏览

pyspark - 如何在 Pyspark 2.1 中使用窗口函数来计算星期几的出现次数

使用下面的 pyspark 数据集（2.1），如何使用窗口函数来计算当前记录的星期几在过去 28 天内出现的次数。

示例数据框：

可能的窗口

示例输出

pyspark window apache-spark-2.1.1

2018-06-06T21:33:23.670

0 投票

1 回答

1519 浏览

python - Pyspark 读取数据 - java.util.NoSuchElementException: spark.sql.execution.pandas.respectSessionTimeZone

我有一个在命令行中运行的程序，但我正在尝试设置 PyCharm 来单独测试它的功能。

我一定是配置了错误，因为每当我尝试读取任何数据（无论是配置单元查询还是 csv）时，都会出现错误。

这似乎可行，所以我使用 pandas 读取了我的 csv，并尝试将其转换为 spark Dataframe：

这是我的堆栈跟踪：

csv 中没有日期或时间，所以我不明白这与什么respectSessionTimeZone有关。

这个错误意味着什么，我该如何解决？

python pyspark apache-spark-sql py4j apache-spark-2.1.1

2018-06-19T12:02:19.697

0 投票

0 回答

131 浏览

scala - 将 Batch Queries 的输出写入 Kafka for Spark 2.1.1 版

有人可以告诉我如何将批处理查询的输出加载到 kafka。

我在 stackoverflow 和其他文章中进行了很多研究，但我找不到 Spark 2.1.1 的任何内容。

对于更高版本的 spark，有一种简单的加载方法（链接）。但是我需要在 Spark 2.1.1 中进行操作。

谢谢你。

scala apache-spark apache-kafka apache-spark-2.1.1

2018-08-14T17:42:45.237

0 投票

0 回答

37 浏览

apache-spark - Spark2 Datetime查找高效的数据结构

我有一个 Spark 应用程序，其记录包含以下信息：

哈希- 项目的一些唯一标识符
位置- 项目的位置
从- 首次在该位置看到该项目的日期
To - 如果仍然存在则为 Null，如果项目已停止在该位置，则为日期

我只需要能够问这个问题：

日期时间 Y 的项目 X 在哪里

为快速查找索引此信息的最有效方法是什么？假设我每天有数十亿条包含项目哈希的记录，我需要用它们的位置来丰富这些记录。

我最简单的方法是存储上面的记录，按哈希分区（尽管可能有大约 1000 万条），然后加入我更大的数据源，其中哈希相同且日期>从和日期<到。这种日期比较虽然感觉应该有更好的解决方案。

关于如何以更好更有效的方式存储这些数据的任何建议？

apache-spark spark-streaming apache-spark-2.1.1

2018-08-27T20:12:30.143

0 投票

1 回答

68 浏览

pyspark - 保存的模型：LinearRegression 似乎不起作用

我正在使用 Azure 和 Spark 版本是 '2.1.1.2.6.2.3-1

我使用以下命令保存了我的模型：

当我尝试使用模型并重新加载它时

我得到的错误是这样的：

我发现的所有示例似乎都告诉我，我应该有能力使用已保存模型中的这些新数据进行预测，但我似乎错过了一步。

pyspark linear-regression apache-spark-2.1.1

2018-11-06T21:40:16.923

0 投票

1 回答

32 浏览

java - 是否可以将自定义 API 公开/添加到现有 Spark 的驱动程序 REST 端点？

Spark 公开了某些 API 端点（通常安装在 /api/v1）。他们是否以某种方式使用相同的 spark 服务器公开自定义端点？

（使用 Spark 2.1.1，结构化流）

java rest apache-spark apache-spark-2.1.1

2019-02-18T06:39:18.587

0 投票

0 回答

258 浏览

apache-spark - spark executor 之间的任务分配不均

我在生产中使用 spark-streaming 2.2.1，在这个应用程序中，我从RabbitMQ读取数据并进行进一步处理，最后将其保存在 cassandra 中。所以，我面临这个奇怪的问题，其中一个节点上的执行者之间的任务数量没有均匀分布。我重新启动了流媒体，但问题仍然存在。

正如你所看到的，10.10.4.72我有 2 个执行者。在41893端口上运行的那个已经完成了大约。其余节点（10.10.3.73和10.10.3.72）上的任务数量加倍。在33451端口上运行的执行程序10.10.4.72只完成了 18 个任务。即使我重新启动火花流，这个问题仍然存在。

编辑问题 12 小时后，如下图所示，同一执行程序在此期间甚至没有处理任何任务。

apache-spark spark-streaming apache-spark-2.1.1

2019-06-11T14:09:17.127

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-spark-2.1.1]

Reference