问题标签 [databricks]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

4107 问题

0 投票

1 回答

1531 浏览

apache-spark - 如何在 spark-csv 中写入“日期”数据类型

我有类似的数据。

我的代码与此类似：（Java）

上面的代码工作正常，没有错误，但 DATE 数据类型（“DOB”）列未正确打印在平面文件中。

我的实际结果是：

即使我正在使用.option("dateFormat", "MM/DD/YYYY").

请参阅最后一列，“日期”格式在 .csv 文件中不起作用。我不确定我错过了什么。

2016-11-01T08:01:40.600

0 投票

0 回答

43 浏览

python - 在 Spark DataFrame 中选择第二列或更多列时获取“null”

所以我有例如以下 XML 文件：

我通过 DataBricks XML 包将它加载到 Spark 中，一切看起来都很好并且加载正确。当我尝试选择firstorfirst.a时，我得到了正确的结果。

但是，如果我尝试得到secondor second.b， or thirdor third.c，那么我得到了null。

我尝试了直接查询，选择函数，一切，我不知道问题是什么。rowTag 是根。有任何想法吗？

更新：没关系，显然这是 spark-xml 包中的错误。谢谢。

python apache-spark spark-dataframe pyspark-sql databricks

2016-11-03T11:21:15.787

0 投票

1 回答

800 浏览

hadoop - 将 rdd 从 spark 写入 Elastic Search 失败

我正在尝试在版本上为 Elastic Cloud 上的 Elastic Search 编写一对 rdd 2.4.0。我正在使用elasticsearch-spark_2.10-2.4.0插件写入 ES。这是我用来写入 ES 的代码：

我得到的错误如下：

有趣的是，当我对 rdd2 上的前几个元素进行处理，然后用它制作一个新的 rdd 并将其写入 ES 时，它可以正常工作：

我正在使用 Elastic Cloud（Elastic Search 的云产品）和 Databricks（Apache Spark 的云产品）难道 ES 无法跟上 Spark 写入 ES 的吞吐量吗？我将 Elastic Cloud 的大小从 2GB RAM 增加到 8GB RAM。

es_write_conf我上面使用的有什么推荐的配置吗？还有confs什么你能想到的吗？更新到 ES 5.0 有帮助吗？

任何帮助表示赞赏。这几天一直在为此苦苦挣扎。谢谢你。

hadoop elasticsearch apache-spark databricks

2016-11-11T18:38:38.550

0 投票

2 回答

5881 浏览

apache-spark - Pyspark 读取 csv - NameError: name 'spark' is not defined

我正在尝试在 databricks 中运行以下代码，以调用 spark 会话并使用它来打开 csv 文件：

我收到以下错误：

知道可能出了什么问题吗？

我也尝试过运行：

但得到以下回应：

如果有帮助，我将尝试遵循以下示例（如果您从 17:30 开始观看，您会更好地理解）： https ://www.youtube.com/watch?v=K14plpZgy_c&list=PLIxzgeMkSrQ-2Uizm4l0HjNSSy2NxgqjX

apache-spark pyspark databricks

2016-11-23T12:24:16.983

0 投票

1 回答

21754 浏览

csv - Spark数据框保存在hdfs位置的单个文件中

我有数据框，我想保存在 hdfs 位置的单个文件中。

我在这里找到了解决方案使用 spark-csv 编写单个 CSV 文件

但所有数据都将写入 mydata.csv/part-00000，我想成为 mydata.csv 文件。

那可能吗？

任何帮助表示赞赏

csv apache-spark dataframe databricks

2016-11-24T18:01:58.320

0 投票

1 回答

4931 浏览

python - 带有 UDF 的 Pyspark 错误：py4j.Py4JException：方法 getnewargs([]) 不存在错误

我正在尝试解决以下错误（我正在使用 databricks 平台和 spark 2.0）

如果我运行此代码，我会收到以下错误：

py4j.Py4JException: 方法getnewargs ([]) 不存在 ==> 错误仅在尝试定义 udf 时发生。

python apache-spark pyspark databricks

2016-11-28T16:13:18.030

0 投票

2 回答

1909 浏览

apache-spark - Spark 2.0.0 使用 jdbc 从 Redshift 表中截断

您好，我正在使用带有 Redshift 的 Spark SQL(2.0.0) 来截断我的表。我正在使用这个spark- redshift 包，我想知道如何截断我的表。有人可以分享这个例子吗？

apache-spark apache-spark-sql amazon-redshift databricks

2016-12-05T11:09:30.220

0 投票

0 回答

96 浏览

python - 如何进行简单的表格读取，复制整行并将其保存为新表格？

我是 DataBricks 和 Apache Spark 的新手。我想为我的笔记本使用 Python。

我正在使用数据块，并且可以确认我已创建：

集群（测试）以及附加的基于 python 的笔记本（测试笔记本）
JSON 文件中的表 (employee_info)
笔记本。

我拥有的示例表来自我作为测试文件上传的 JSON，如下所示：

如果我已经上传了这个表，我该怎么做（假设我使用 Python 作为 Notebook）：

访问表
复制一整行
将具有重复列的表另存为新表

谢谢。

python json databricks spark-notebook

2016-12-05T17:54:53.503

0 投票

2 回答

3115 浏览

apache-spark-sql - 无法从本地文件路径读取文本文件 - Spark CSV 阅读器

我们正在使用 Spark CSV 阅读器读取要转换为 DataFrame 的 csv 文件，并且我们正在运行该作业yarn-client，它在本地模式下工作正常。

我们正在提交 spark 作业edge node。

但是当我们将文件放在本地文件路径而不是 HDFS 中时，我们会收到文件未找到异常。

代码：

我们也尝试过file:///，但仍然遇到同样的错误。

错误日志：

apache-spark-sql spark-csv databricks

2016-12-24T08:54:45.487

0 投票

1 回答

698 浏览

scala - Spark 与 Scala：在 Cassandra 中而不是 TupleValue 中写入类似空的字段值

在我的一个收藏中，假设我有以下字段：

假设我想使用 Scala 脚本在该特定字段为空、null、不存在等的位置插入一个条目，在插入之前我将条目的字段映射如下：

尝试运行 spark 脚本（来自 Databricks，Spark 连接器版本 1.6）时，出现以下错误：

当使用None而不是null我仍然得到一个错误，虽然一个不同的：

我知道 Cassandra 没有确切的 null 概念，但我知道在将条目插入 Cassandra 时有一种方法可以将值排除在外，就像我在其他环境中所做的那样，比如为 Cassandra 使用 nodejs 驱动程序。null在插入预期的 TupleValue 或某些用户定义的类型时，如何强制使用-like 值？

scala apache-spark cassandra databricks

2016-12-27T14:06:47.357

1 2 3 4 5 6 7 8 9 10

问题标签 [databricks]

Reference