问题标签 [databricks]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
140 浏览

apache-spark - Spark - 从配置单元查询时不可见 avro 数据

我正在使用 spark avro 创建数据框,例如

在我的情况下,输出路径将类似于hdfs path + table_name + partitio n

表 table_name 已经使用 AvroSerDe 在 Hive 中创建,其中 LOCATION 设置为 outputPath。

但是,当我从 hive 为 table_name 执行 select * 时,创建的数据框不可见。可能是什么问题

0 投票
2 回答
1044 浏览

apache-spark - NoSuchMethodError 使用 Databricks Spark-Avro 3.2.0

我有一个 spark master & worker 在 Docker 容器中运行,带有 spark 2.0.2 和 hadoop 2.7。我正在尝试通过运行从不同的容器(相同的网络)提交来自 pyspark 的作业

但我收到了这个错误:

如果我尝试以交互方式或使用 spark-submit 没有区别。这些是我在 spark 中加载的包:

spark-submit --version输出:

斯卡拉版本是 2.11.8

我的 pyspark 命令:

我的火花提交命令:

我在这里读到这可能是由“正在使用旧版本的 avro”引起的,所以我尝试使用 1.8.1,但我一直收到同样的错误。阅读 avro 工作正常。有什么帮助吗?

0 投票
2 回答
1095 浏览

mongodb - PySpark Mongodb / java.lang.NoClassDefFoundError: org/apache/spark/sql/DataFrame

我正在尝试将 pyspark 连接到 MongoDB(在 Databricks 上运行):

但我得到这个错误

java.lang.NoClassDefFoundError: org/apache/spark/sql/DataFrame

我正在使用 Spark 2.0 和 Mongo-spark-connector 2.11 并定义 spark.mongodb.input.uri 和 spark.mongodb.output.uri

0 投票
0 回答
803 浏览

hadoop - 无法在 spark 中读取 .zip 文件

我能够通过 spark csv 读取 .gz 文件并获得预期的结果。但是,在尝试读取 .zip 文件时,spark 会给出意想不到的结果,例如 wV�J�.f�T n。

我访问过“ https://github.com/apache/hadoop/tree/trunk/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/io/compress ”,但没有找不到 .zip 文件的任何压缩编解码器。

我在stackoverflow上进行了搜索,但没有得到任何令人满意的结果。

如果有人遇到同样的问题或对此有任何解决方案,请提供更多信息。

0 投票
0 回答
58 浏览

scala - 奇怪的错误我不能对数据框做任何事情,但它不是空的

我正在使用带有 Spark 1.6.0 (Hadoop 1) 的数据块在 scala 中运行一个查询,以过滤我在 redshift 中拥有的一些 URL 数据,但是一旦查询成功完成,如果我对数据框运行计数,它表明存在数据框上的数据,但我尝试显示数据或连接数据 数据框似乎为空,它不显示任何内容,也无法进行连接。

这是将数据导入数据块的代码

实际数据是这样的

或者

我不明白为什么如果我运行计数我会得到结果,但对于任何其他操作,数据框似乎是空的,任何想法为什么会发生这种情况?

0 投票
1 回答
969 浏览

apache-spark - input_file_name 在 spark-xml 中不起作用

com.databricks.spark.xml通过格式加载xml文件时,我试图为每一行添加输入文件名。但它返回文件名的空列..

这是代码片段。我正在使用input_file_name功能:

返回:

我尝试了不同的方法,但在使用 com.databricks.spark.xml 时它仍然返回空文件名。

但是,它在为文本文件执行正常数据帧加载时效果很好。

请帮忙。

0 投票
2 回答
562 浏览

java - Apache Spark 数据集 API - 不接受架构 StructType

我有以下类,它使用 Spark 数据 API 加载无头 CSV 文件。

我遇到的问题是我无法让 SparkSession 接受应该定义每一列的模式 StructType。结果数据框是字符串类型的未命名列

生成的数据框架构是:

调试器显示 'builder' StrucType 已正确定义:

我究竟做错了什么?任何帮助都非常感谢!

0 投票
1 回答
333 浏览

python - Python Spark Databricks 二进制分类教程 - 如何对未标记的数据进行预测?

我希望可以提出与特定教程相关的问题。也许这里有人使用相同的教程并且知道答案。

我正在关注二进制分类的 Databricks 教程,使用Kaggle Titanic Dataset

本教程使用带标签的数据集。执行以下步骤:

  • 预处理:索引所有分类特征,将所有特征放入一个称为“特征”的向量中。
  • 建立模型
  • 评估模型
  • 作出预测

本教程使用一个大的、标记的数据集,该数据集分为训练和测试来构建模型并随后对其进行评估。我可以毫无问题地使用我的火车数据集。

现在我想对来自 Kaggle 的单独的“测试”数据集进行预测,该数据集没有标签(在我的情况下是“幸存”列,在教程的情况下“收入”列丢失)。

有人知道如何解决这个问题吗?我是否必须在测试数据集上单独执行教程的整个预处理部分,然后调用以下内容:?

还是我可能需要将缺少的标签列(收入/幸存)添加到测试数据集中,然后进行预处理,然后调用上面的?

0 投票
1 回答
294 浏览

csv - Spark,databricks,保存到 CSV 没有列名

我正在使用 Spark databricks csv 将数据帧保存到 csv。但是,我无法获取包含列的 CSV 文件。它是纯文本。

请检查以下代码:

0 投票
2 回答
392 浏览

hadoop - Hadoop / Spark 生态系统内的数据移动

我有一个基本问题,希望能更好地理解:

背景

假设我有一个巨大的 CSV 文件(50 GB),我想将其用于数据科学团队的分析。理想情况下,团队的每个成员都能够以他们选择的语言与数据交互,数据不需要频繁移动(考虑到它的大小),并且所有人都可以灵活地访问计算资源。

建议的解决方案

Apache Spark 似乎是当前满足上述要求的解决方案的领先者。Scala、Python、SQL 和 R 都能够在灵活的计算资源之上(如果利用 DataBricks、Azure、AWS、Cloudera 等云提供商)访问其所在位置的数据。

问题

以 Microsoft Azure / HDInsight 域中的特定示例为例。假设我们要将这个大型 CSV 上传到 Azure Data Lake。如果我们随后利用 HDInsight 中的 Spark 为这些数据定义架构,我们是否需要从数据所在的位置移动/导入数据?

我的理解可能是错误的,一个关键的好处是数据能够以它的原生 CSV 格式驻留在数据湖中。在其上运行计算不需要移动它。此外,如果我们希望根据需要经常关闭/启动 Spark 集群,我们可以这样做,只需将它们重新指向廉价存储的 CSV。

结论

您能够就上述内容提供任何确认,或澄清误解,将不胜感激。Hadoop / Spark 生态系统继续快速发展,我想确保我对它当前的能力有一个正确的理解。