问题标签 [aws-databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
aws-databricks - databricks 笔记本读取 databricks 作业统计信息并将其写入雪花表
我在数据块中安排了几项工作,其中我有兴趣阅读两个特定工作的统计信息。我需要编写一个 databricks 笔记本代码来将作业统计信息(jobName、startTime、endTime 和状态)写入雪花表。
pyspark - 如何在不重命名列的情况下计算单行中数据框列的平均值、最大值、最小值
如何在不使用 pyspark 重命名列的情况下从单行中的数据框列计算同一列的平均值、最大值、最小值
我使用了下面的命令,但它抛出了一个错误
apache-spark - 如何在 Databricks 中配置自定义 Spark 插件?
如何在 Databricks 中正确配置 Spark 插件和包含 Spark 插件类的 jar?
我在 Scala 中创建了以下 Spark 3 插件类 CustomExecSparkPlugin.scala:
我已将其打包成 jar 并将其上传到 DBFS,在 DBR 7.3(Spark 3.0.1、Scala 2.12)集群创建期间,我设置了以下 Spark 配置(高级选项):
但是,集群创建失败并出现异常:com.example.CustomExecSparkPlugin not found in com.databricks.backend.daemon.driver.ClassLoaders$LibraryClassLoader@622d7e4
驱动程序 log4j 日志:
python - 在 Databricks 中使用 PySpark 获取 S3 中的文件列表
我正在尝试生成存储桶/文件夹中所有 S3 文件的列表。文件夹中通常有数百万个文件。我现在使用 boto,它每分钟可以检索大约 33k 个文件,即使是一百万个文件,也需要半小时。我还将这些文件加载到数据框中,但生成并使用此列表作为跟踪正在处理的文件的一种方式。
我注意到的是,当我要求 Spark 读取文件夹中的所有文件时,它会列出自己的列表,并且能够比 boto 调用更快地列出它们,然后处理这些文件。我在 PySpark 中查找了一种方法,但没有找到好的示例。我得到的最接近的是一些 Java 和 Scala 代码来列出使用 HDFS 库的文件。
有没有办法在 Python 和 Spark 中做到这一点?作为参考,我正在尝试复制以下代码片段:
amazon-web-services - 通过 Spark 读取时如何从输入源中排除 Glacier 数据?
我正在尝试从我的 Databricks 笔记本作业 (Spark) 的输入中排除 Glacier 数据。它基本上是通过 AWS Glue Catalog 读取 S3 上的 parquet 数据。我已经添加excludeStorageClasses
到 Glue 表属性:
但是当我读取表格时,它仍在尝试读取 Glacier 中的数据。
错误:
任何想法如何使它工作或如何从 Spark 作业的输入源中排除 Glacier 数据?
python-3.x - 从笔记本运行数据块作业
我想知道是否可以使用代码从笔记本运行 Databricks 作业,以及如何执行
我有一个包含多个任务和许多贡献者的工作,我们创建了一个工作来执行这一切,现在我们想从笔记本运行该工作以测试新功能而不在工作中创建新任务,也用于运行在一个循环中多次作业,例如:
问候
amazon-web-services - DataBricks 示例 Terraform 代码导致 AWS VPC 模块中的错误
我对 DataBricks 完全陌生,并尝试使用 DataBricks 提供的示例 Terraform 代码部署 E2 工作区。我刚刚开始使用 VPC 部分:
当我运行时,terraform plan
我收到此错误:
真的很感激任何关于这里出了什么问题的指示。
apache-spark - Databricks 笔记本 8.3(Apache Spark 3.1.1、Scala 2.12)| pyspark | Parquet 写入异常 | 阶段实现中的多次失败
这是直到上周运行良好的生产代码。然后,这个镶木地板写入错误出现并且从未得到解决。
在以镶木地板格式写入 AWS S3 时,我尝试了几个 dataframe.repartitions(300) - 300、500、2400、6000。但没有运气。代码本身运行良好,但如果我在数据帧上添加 count(),有时会出现计数错误。(断断续续地)。所以我删除了代码中的所有 count() 来运行代码而不会出错。现在,它在写入 AWS s3 位置时失败。
该代码在 Databricks 笔记本上运行 - Databricks 运行时版本 8.3(包括 Apache Spark 3.1.1、Scala 2.12)。代码是用 pyspark(python 3.8) 编写的。该代码在 AWS r5.8xlarge 实例上运行。我坚持这一点,非常感谢任何帮助。