问题标签 [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
curl - 在 Databricks+Spark 笔记本中使用 curl
我正在使用 Databricks 运行 Spark 集群。我想使用 curl 从服务器传输数据。例如,
如何在 Databricks 笔记本中执行此操作(最好在 python 中,但 Scala 也可以)?
scala - 应用 UDF 后的 Databircs.CSV.Write - spark 2.0.0,scala 2.11.8
我有以下实例: - Hadoop 2.7.3 - Scala 2.11.8 - Spark 2.0.0 - SBT 0.13.11 一切都在本地构建。该代码是在 Intellij 中开发的,我通过单击调试来运行它。
一切正常,除非我尝试使用 udf
如果我将 master 设置为“local [*]”而不是独立运行,则一切正常。我还尝试写入独立的 hadoop 并指定绝对路径(不是 hdfs),它也运行良好。所以问题在于独立的火花实例或我运行工作的方式。
代码写入失败。所以看起来它处理了一切
构建.sbt
和日志的开头
scala - Spark 中的 java.io.FileNotFoundException
我是使用Databricks.com中的 Notebook 和 Cluster 学习 Spark 和 Scala 的新手,这是我加载文件的非常简单的代码:
但我得到这样的错误:
java.io.FileNotFoundException:文件文件:/tmp/myfile.json 不存在。
在 org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:402)
在 org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:255)
在 com.databricks.backend.daemon.dbutils.FSUtils$.cp(DBUtilsCore.scala:82)
在 com.databricks.dbutils_v1.impl.DbfsUtilsImpl.cp(DbfsUtilsImpl.scala:40)
我正在使用 Mac,并且我已确保该文件存在于此绝对路径中,这是火花错误吗?谢谢!
apache-spark - Spark - 减少数据帧大小并缓存它
我在 Spark 中有一个非常大的 DataFrame,对其进行操作需要很长时间。
它有 10M 行。
我想对其进行采样,以便更快地进行测试,所以我正在尝试:
我认为这将保留一个只有 1K 行的数据框。
但是redux.count
例如运行仍然需要很长时间(3分钟)。
我在带有 6 GB RAM(来自 DataBricks)的 8 个工作盒上运行它。
难道我做错了什么?
谢谢!
apache-spark - Spark SQL - 使用 JSON Schema 读取 JSON(模式的官方标准)
是否可以使用根据标准定义的现有 JSON 模式(文件):
http://json-schema.org/latest/json-schema-core.html ,
显式声明 JSON 数据帧的架构?如果有,有什么例子吗?我们有许多定义我们的 JSON 事件的 json 模式文件,如果能够允许 DF 重用它们会很好吗?
干杯
python - 无法使用 Databricks (python) 将正确的文件格式保存到 S3
几天前我刚开始使用 Databricks,我试图从 S3/bucket_name/../raw 获取一些日志文件并对其进行处理以检查日志是否包含我想要使用的某些行并将这些行保存到另一个文件夹称为'S3/bucket_name/../processed/
这是我到目前为止所尝试的。
我能够提取我想要的行并将新文件输出到 S3 上的新处理文件夹中。但是,当我尝试访问该文件并输出结果时,我遇到了一些错误
错误信息:
我猜这个问题是由输出格式保存回 S3 引起的。有没有办法从日志文件中处理和提取我需要的行,将这些行保存到另一个文件中以存储在 S3 上,并且仍然可以在 Databricks 上的 S3 上使用新存储的文件?
scala - 来自 Dataset 的 RDD 导致 Spark 2.x 的序列化错误
我有一个使用 Databricks 笔记本从数据集创建的 RDD。
当我尝试从中获取具体值时,它只是失败并显示序列化错误消息。
这是我获取数据的地方(PageCount 是一个 Case 类):
然后当我这样做时:
我得到以下异常:
即使对数据集的相同尝试有效:
编辑 :
这是完整的堆栈跟踪
apache-spark - Spark - 使用 Firehose 从分区文件夹中读取 JSON
Kinesis firehose 管理文件的持久性,在本例中为时间序列 JSON,到按 YYYY/MM/DD/HH 分区的文件夹层次结构中(以 24 编号为小时)......很棒。
那么如何使用 Spark 2.0 读取这些嵌套的子文件夹并从所有叶子 json 文件创建一个静态数据框?数据框阅读器是否有“选项”?
我的下一个目标是让它成为一个流式 DF,其中由 Firehose 持久化到 s3 中的新文件使用 Spark 2.0 中的新结构化流自然成为流式数据帧的一部分。我知道这都是实验性的——希望有人以前使用过 S3 作为流文件源,其中数据被划分到如上所述的文件夹中。当然更喜欢直接的 Kinesis 流,但是这个连接器上没有 2.0 的日期,所以 Firehose->S3 是临时的。
ND:我正在使用 databricks,它将 S3 挂载到 DBFS 中,但当然也很容易成为 EMR 或其他 Spark 提供程序。如果一个可以共享的笔记本也很高兴看到一个例子。
干杯!
rest - 如何在 Airflow 的 SimpleHttpOperator 中访问 execution_date
我正在尝试使用带有 SimpleHttpOperator的REST API自动进行调用。
这是我可以拨打的电话示例,并且效果很好。
现在,将其格式化为由 SimpleHttpOperator 生成,看起来像这样,而且效果很好:
我现在正在尝试访问 execution_date,这是一个由 Airflow 设置的变量,它让操作员知道它应该被调用的时间。这通常可以使用 BashOperator 或 PythonOperator 的 jinga 模板访问,但不能使用 SimpleHttpOperator:
这个变量对 SimpleHttpOperator 不可用,它是非常需要的。如果您知道任何解决方法或在 SimpleHttpOperator 中访问它的方法,请告诉我。
谢谢。