问题标签 [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1531 浏览

apache-spark - 如何在 spark-csv 中写入“日期”数据类型

我有类似的数据。

我的代码与此类似:(Java)

上面的代码工作正常,没有错误,但 DATE 数据类型(“DOB”)列未正确打印在平面文件中。

我的实际结果是:

即使我正在使用.option("dateFormat", "MM/DD/YYYY").

请参阅最后一列,“日期”格式在 .csv 文件中不起作用。我不确定我错过了什么。

0 投票
0 回答
43 浏览

python - 在 Spark DataFrame 中选择第二列或更多列时获取“null”

所以我有例如以下 XML 文件:

我通过 DataBricks XML 包将它加载到 Spark 中,一切看起来都很好并且加载正确。当我尝试选择firstorfirst.a时,我得到了正确的结果。

但是,如果我尝试得到secondor second.b, or thirdor third.c,那么我得到了null

我尝试了直接查询,选择函数,一切,我不知道问题是什么。rowTag 是根。有任何想法吗?

更新:没关系,显然这是 spark-xml 包中的错误。谢谢。

0 投票
1 回答
800 浏览

hadoop - 将 rdd 从 spark 写入 Elastic Search 失败

我正在尝试在版本上为 Elastic Cloud 上的 Elastic Search 编写一对 rdd 2.4.0。我正在使用elasticsearch-spark_2.10-2.4.0插件写入 ES。这是我用来写入 ES 的代码:

我得到的错误如下:

有趣的是,当我对 rdd2 上的前几个元素进行处理,然后用它制作一个新的 rdd 并将其写入 ES 时,它可以正常工作:

我正在使用 Elastic Cloud(Elastic Search 的云产品)和 Databricks(Apache Spark 的云产品)难道 ES 无法跟上 Spark 写入 ES 的吞吐量吗?我将 Elastic Cloud 的大小从 2GB RAM 增加到 8GB RAM。

es_write_conf我上面使用的有什么推荐的配置吗?还有confs什么你能想到的吗?更新到 ES 5.0 有帮助吗?

任何帮助表示赞赏。这几天一直在为此苦苦挣扎。谢谢你。

0 投票
2 回答
5881 浏览

apache-spark - Pyspark 读取 csv - NameError: name 'spark' is not defined

我正在尝试在 databricks 中运行以下代码,以调用 spark 会话并使用它来打开 csv 文件:

我收到以下错误:

知道可能出了什么问题吗?

我也尝试过运行:

但得到以下回应:

如果有帮助,我将尝试遵循以下示例(如果您从 17:30 开始观看,您会更好地理解): https ://www.youtube.com/watch?v=K14plpZgy_c&list=PLIxzgeMkSrQ-2Uizm4l0HjNSSy2NxgqjX

0 投票
1 回答
21754 浏览

csv - Spark数据框保存在hdfs位置的单个文件中

我有数据框,我想保存在 hdfs 位置的单个文件中。

我在这里找到了解决方案使用 spark-csv 编写单个 CSV 文件

但所有数据都将写入 mydata.csv/part-00000,我想成为 mydata.csv 文件。

那可能吗?

任何帮助表示赞赏

0 投票
1 回答
4931 浏览

python - 带有 UDF 的 Pyspark 错误:py4j.Py4JException:方法 __getnewargs__([]) 不存在错误

我正在尝试解决以下错误(我正在使用 databricks 平台和 spark 2.0)

如果我运行此代码,我会收到以下错误:

py4j.Py4JException: 方法getnewargs ([]) 不存在 ==> 错误仅在尝试定义 udf 时发生。

0 投票
2 回答
1909 浏览

apache-spark - Spark 2.0.0 使用 jdbc 从 Redshift 表中截断

您好,我正在使用带有 Redshift 的 Spark SQL(2.0.0) 来截断我的表。我正在使用这个spark- redshift 包,我想知道如何截断我的表。有人可以分享这个例子吗?

0 投票
0 回答
96 浏览

python - 如何进行简单的表格读取,复制整行并将其保存为新表格?

我是 DataBricks 和 Apache Spark 的新手。我想为我的笔记本使用 Python。

我正在使用数据块,并且可以确认我已创建:

  • 集群(测试)以及附加的基于 python 的笔记本(测试笔记本)
  • JSON 文件中的表 (employee_info)
  • 笔记本。

我拥有的示例表来自我作为测试文件上传的 JSON,如下所示:

如果我已经上传了这个表,我该怎么做(假设我使用 Python 作为 Notebook):

  • 访问表
  • 复制一整行
  • 将具有重复列的表另存为新表

谢谢。

0 投票
2 回答
3115 浏览

apache-spark-sql - 无法从本地文件路径读取文本文件 - Spark CSV 阅读器

我们正在使用 Spark CSV 阅读器读取要转换为 DataFrame 的 csv 文件,并且我们正在运行该作业yarn-client,它在本地模式下工作正常。

我们正在提交 spark 作业edge node

但是当我们将文件放在本地文件路径而不是 HDFS 中时,我们会收到文件未找到异常。

代码:

我们也尝试过file:///,但仍然遇到同样的错误。

错误日志:

0 投票
1 回答
698 浏览

scala - Spark 与 Scala:在 Cassandra 中而不是 TupleValue 中写入类似空的字段值

在我的一个收藏中,假设我有以下字段:

假设我想使用 Scala 脚本在该特定字段为空、null、不存在等的位置插入一个条目,在插入之前我将条目的字段映射如下:

尝试运行 spark 脚本(来自 Databricks,Spark 连接器版本 1.6)时,出现以下错误:

当使用None而不是null我仍然得到一个错误,虽然一个不同的:

我知道 Cassandra 没有确切的 null 概念,但我知道在将条目插入 Cassandra 时有一种方法可以将值排除在外,就像我在其他环境中所做的那样,比如为 Cassandra 使用 nodejs 驱动程序。null在插入预期的 TupleValue 或某些用户定义的类型时,如何强制使用-like 值?