问题标签 [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - 如何在 spark-csv 中写入“日期”数据类型
我有类似的数据。
我的代码与此类似:(Java)
上面的代码工作正常,没有错误,但 DATE 数据类型(“DOB”)列未正确打印在平面文件中。
我的实际结果是:
即使我正在使用.option("dateFormat", "MM/DD/YYYY")
.
请参阅最后一列,“日期”格式在 .csv 文件中不起作用。我不确定我错过了什么。
python - 在 Spark DataFrame 中选择第二列或更多列时获取“null”
所以我有例如以下 XML 文件:
我通过 DataBricks XML 包将它加载到 Spark 中,一切看起来都很好并且加载正确。当我尝试选择first
orfirst.a
时,我得到了正确的结果。
但是,如果我尝试得到second
or second.b
, or third
or third.c
,那么我得到了null
。
我尝试了直接查询,选择函数,一切,我不知道问题是什么。rowTag 是根。有任何想法吗?
更新:没关系,显然这是 spark-xml 包中的错误。谢谢。
hadoop - 将 rdd 从 spark 写入 Elastic Search 失败
我正在尝试在版本上为 Elastic Cloud 上的 Elastic Search 编写一对 rdd 2.4.0
。我正在使用elasticsearch-spark_2.10-2.4.0
插件写入 ES。这是我用来写入 ES 的代码:
我得到的错误如下:
有趣的是,当我对 rdd2 上的前几个元素进行处理,然后用它制作一个新的 rdd 并将其写入 ES 时,它可以正常工作:
我正在使用 Elastic Cloud(Elastic Search 的云产品)和 Databricks(Apache Spark 的云产品)难道 ES 无法跟上 Spark 写入 ES 的吞吐量吗?我将 Elastic Cloud 的大小从 2GB RAM 增加到 8GB RAM。
es_write_conf
我上面使用的有什么推荐的配置吗?还有confs
什么你能想到的吗?更新到 ES 5.0 有帮助吗?
任何帮助表示赞赏。这几天一直在为此苦苦挣扎。谢谢你。
apache-spark - Pyspark 读取 csv - NameError: name 'spark' is not defined
我正在尝试在 databricks 中运行以下代码,以调用 spark 会话并使用它来打开 csv 文件:
我收到以下错误:
知道可能出了什么问题吗?
我也尝试过运行:
但得到以下回应:
如果有帮助,我将尝试遵循以下示例(如果您从 17:30 开始观看,您会更好地理解): https ://www.youtube.com/watch?v=K14plpZgy_c&list=PLIxzgeMkSrQ-2Uizm4l0HjNSSy2NxgqjX
csv - Spark数据框保存在hdfs位置的单个文件中
我有数据框,我想保存在 hdfs 位置的单个文件中。
我在这里找到了解决方案使用 spark-csv 编写单个 CSV 文件
但所有数据都将写入 mydata.csv/part-00000,我想成为 mydata.csv 文件。
那可能吗?
任何帮助表示赞赏
python - 带有 UDF 的 Pyspark 错误:py4j.Py4JException:方法 __getnewargs__([]) 不存在错误
我正在尝试解决以下错误(我正在使用 databricks 平台和 spark 2.0)
如果我运行此代码,我会收到以下错误:
py4j.Py4JException: 方法getnewargs ([]) 不存在 ==> 错误仅在尝试定义 udf 时发生。
apache-spark - Spark 2.0.0 使用 jdbc 从 Redshift 表中截断
您好,我正在使用带有 Redshift 的 Spark SQL(2.0.0) 来截断我的表。我正在使用这个spark- redshift 包,我想知道如何截断我的表。有人可以分享这个例子吗?
python - 如何进行简单的表格读取,复制整行并将其保存为新表格?
我是 DataBricks 和 Apache Spark 的新手。我想为我的笔记本使用 Python。
我正在使用数据块,并且可以确认我已创建:
- 集群(测试)以及附加的基于 python 的笔记本(测试笔记本)
- JSON 文件中的表 (employee_info)
- 笔记本。
我拥有的示例表来自我作为测试文件上传的 JSON,如下所示:
如果我已经上传了这个表,我该怎么做(假设我使用 Python 作为 Notebook):
- 访问表
- 复制一整行
- 将具有重复列的表另存为新表
谢谢。
apache-spark-sql - 无法从本地文件路径读取文本文件 - Spark CSV 阅读器
我们正在使用 Spark CSV 阅读器读取要转换为 DataFrame 的 csv 文件,并且我们正在运行该作业yarn-client
,它在本地模式下工作正常。
我们正在提交 spark 作业edge node
。
但是当我们将文件放在本地文件路径而不是 HDFS 中时,我们会收到文件未找到异常。
代码:
我们也尝试过file:///
,但仍然遇到同样的错误。
错误日志:
scala - Spark 与 Scala:在 Cassandra 中而不是 TupleValue 中写入类似空的字段值
在我的一个收藏中,假设我有以下字段:
假设我想使用 Scala 脚本在该特定字段为空、null、不存在等的位置插入一个条目,在插入之前我将条目的字段映射如下:
尝试运行 spark 脚本(来自 Databricks,Spark 连接器版本 1.6)时,出现以下错误:
当使用None
而不是null
我仍然得到一个错误,虽然一个不同的:
我知道 Cassandra 没有确切的 null 概念,但我知道在将条目插入 Cassandra 时有一种方法可以将值排除在外,就像我在其他环境中所做的那样,比如为 Cassandra 使用 nodejs 驱动程序。null
在插入预期的 TupleValue 或某些用户定义的类型时,如何强制使用-like 值?