问题标签 [apache-spark-2.1.1]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - 无法在 virtualenv 中加载 pyspark
我在 python virtualenv 中安装了 pyspark。我还在 virtualenv 中安装了新发布的http://jupyterlab.readthedocs.io/en/stable/getting_started/installation.html的 jupyterlab。我无法在 jupyter-notebook 中触发 pyspark,因为我可以使用 SparkContext 变量。
exception-handling - pyspark 中的 try 和 except 块问题
我使用 spark-2.1 。下面是我的代码
下面是我正在尝试的
从另一个 schema2 中的另一个 table2 插入到 schema1 的 table1 中。
我将它放在一个 try 块中,这样如果它成功,它将退出到 except 条件将删除表并打印消息架构 1.table1 的整体加载失败。
现在的问题是,每当我执行上述语句时,它都会将表删除到 schema 中。pyspark 不受 python 的 try and catch 控制
我感觉没有尝试它会进入 catch 块并丢弃
请帮助跨越这个障碍
提前致谢 !
python-2.7 - 在 amazon-EMR 上使用 python 评估 spark-deep-learning 外部 jar
我一直在尝试让 spark-deep-learning 库在我的 EMR 集群上运行,以便能够与 Python 2.7 并行读取图像。我一直在寻找这个很长一段时间,但我未能找到解决方案。我尝试在 conf 中为 sparksession 设置不同的配置设置,但在尝试创建 SparkSession 对象时出现以下错误
以上是使用 jupyter notebook 时的结果。我尝试使用 spark submit 提交 py 文件,并添加我需要用作 --jars、--driver-class-path 和 --conf spark.executor.extraClassPath 的值的 jar,如此链接所述。这里是我提交的代码以及由此产生的导入错误:
该库在独立模式下运行良好,但是当我使用集群模式时,我不断收到上述错误之一。
我真的希望有人能帮我解决这个问题,因为我已经盯着它看了好几个星期了,我需要让它工作
谢谢!
pyspark - 如何在 Pyspark 2.1 中使用窗口函数来计算星期几的出现次数
使用下面的 pyspark 数据集(2.1),如何使用窗口函数来计算当前记录的星期几在过去 28 天内出现的次数。
示例数据框:
可能的窗口
示例输出
python - Pyspark 读取数据 - java.util.NoSuchElementException: spark.sql.execution.pandas.respectSessionTimeZone
我有一个在命令行中运行的程序,但我正在尝试设置 PyCharm 来单独测试它的功能。
我一定是配置了错误,因为每当我尝试读取任何数据(无论是配置单元查询还是 csv)时,都会出现错误。
这似乎可行,所以我使用 pandas 读取了我的 csv,并尝试将其转换为 spark Dataframe:
这是我的堆栈跟踪:
csv 中没有日期或时间,所以我不明白这与什么respectSessionTimeZone
有关。
这个错误意味着什么,我该如何解决?
scala - 将 Batch Queries 的输出写入 Kafka for Spark 2.1.1 版
有人可以告诉我如何将批处理查询的输出加载到 kafka。
我在 stackoverflow 和其他文章中进行了很多研究,但我找不到 Spark 2.1.1 的任何内容。
对于更高版本的 spark,有一种简单的加载方法(链接)。但是我需要在 Spark 2.1.1 中进行操作。
谢谢你 。
apache-spark - Spark2 Datetime查找高效的数据结构
我有一个 Spark 应用程序,其记录包含以下信息:
- 哈希- 项目的一些唯一标识符
- 位置- 项目的位置
- 从- 首次在该位置看到该项目的日期
- To - 如果仍然存在则为 Null,如果项目已停止在该位置,则为日期
我只需要能够问这个问题:
日期时间 Y 的项目 X 在哪里
为快速查找索引此信息的最有效方法是什么?假设我每天有数十亿条包含项目哈希的记录,我需要用它们的位置来丰富这些记录。
我最简单的方法是存储上面的记录,按哈希分区(尽管可能有大约 1000 万条),然后加入我更大的数据源,其中哈希相同且日期>从和日期<到。这种日期比较虽然感觉应该有更好的解决方案。
关于如何以更好更有效的方式存储这些数据的任何建议?
pyspark - 保存的模型:LinearRegression 似乎不起作用
我正在使用 Azure 和 Spark 版本是 '2.1.1.2.6.2.3-1
我使用以下命令保存了我的模型:
当我尝试使用模型并重新加载它时
我得到的错误是这样的:
我发现的所有示例似乎都告诉我,我应该有能力使用已保存模型中的这些新数据进行预测,但我似乎错过了一步。
java - 是否可以将自定义 API 公开/添加到现有 Spark 的驱动程序 REST 端点?
Spark 公开了某些 API 端点(通常安装在 /api/v1)。他们是否以某种方式使用相同的 spark 服务器公开自定义端点?
(使用 Spark 2.1.1,结构化流)
apache-spark - spark executor 之间的任务分配不均
我在生产中使用 spark-streaming 2.2.1,在这个应用程序中,我从RabbitMQ读取数据并进行进一步处理,最后将其保存在 cassandra 中。所以,我面临这个奇怪的问题,其中一个节点上的执行者之间的任务数量没有均匀分布。我重新启动了流媒体,但问题仍然存在。
正如你所看到的,10.10.4.72
我有 2 个执行者。在41893端口上运行的那个已经完成了大约。其余节点(10.10.3.73
和10.10.3.72
)上的任务数量加倍。在33451端口上运行的执行程序10.10.4.72
只完成了 18 个任务。即使我重新启动火花流,这个问题仍然存在。
编辑问题 12 小时后,如下图所示,同一执行程序在此期间甚至没有处理任何任务。