“databricks”的相关标签问题

0 投票

2 回答

140 浏览

apache-spark - Spark - 从配置单元查询时不可见 avro 数据

我正在使用 spark avro 创建数据框，例如

在我的情况下，输出路径将类似于hdfs path + table_name + partitio n

表 table_name 已经使用 AvroSerDe 在 Hive 中创建，其中 LOCATION 设置为 outputPath。

但是，当我从 hive 为 table_name 执行 select * 时，创建的数据框不可见。可能是什么问题

2017-03-29T05:34:54.597

0 投票

2 回答

1044 浏览

apache-spark - NoSuchMethodError 使用 Databricks Spark-Avro 3.2.0

我有一个 spark master & worker 在 Docker 容器中运行，带有 spark 2.0.2 和 hadoop 2.7。我正在尝试通过运行从不同的容器（相同的网络）提交来自 pyspark 的作业

但我收到了这个错误：

如果我尝试以交互方式或使用 spark-submit 没有区别。这些是我在 spark 中加载的包：

spark-submit --version输出：

斯卡拉版本是 2.11.8

我的 pyspark 命令：

我的火花提交命令：

我在这里读到这可能是由“正在使用旧版本的 avro”引起的，所以我尝试使用 1.8.1，但我一直收到同样的错误。阅读 avro 工作正常。有什么帮助吗？

apache-spark avro databricks spark-avro

2017-04-03T04:14:52.697

0 投票

2 回答

1095 浏览

mongodb - PySpark Mongodb / java.lang.NoClassDefFoundError: org/apache/spark/sql/DataFrame

我正在尝试将 pyspark 连接到 MongoDB（在 Databricks 上运行）：

但我得到这个错误

java.lang.NoClassDefFoundError: org/apache/spark/sql/DataFrame

我正在使用 Spark 2.0 和 Mongo-spark-connector 2.11 并定义 spark.mongodb.input.uri 和 spark.mongodb.output.uri

mongodb pyspark connector databricks

2017-04-04T12:51:54.990

0 投票

0 回答

803 浏览

hadoop - 无法在 spark 中读取 .zip 文件

我能够通过 spark csv 读取 .gz 文件并获得预期的结果。但是，在尝试读取 .zip 文件时，spark 会给出意想不到的结果，例如 wV�J�.f�T n。

我访问过“ https://github.com/apache/hadoop/tree/trunk/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/io/compress ”，但没有找不到 .zip 文件的任何压缩编解码器。

我在stackoverflow上进行了搜索，但没有得到任何令人满意的结果。

如果有人遇到同样的问题或对此有任何解决方案，请提供更多信息。

hadoop apache-spark databricks

2017-04-06T13:05:17.830

0 投票

0 回答

58 浏览

scala - 奇怪的错误我不能对数据框做任何事情，但它不是空的

我正在使用带有 Spark 1.6.0 (Hadoop 1) 的数据块在 scala 中运行一个查询，以过滤我在 redshift 中拥有的一些 URL 数据，但是一旦查询成功完成，如果我对数据框运行计数，它表明存在数据框上的数据，但我尝试显示数据或连接数据数据框似乎为空，它不显示任何内容，也无法进行连接。

这是将数据导入数据块的代码

实际数据是这样的

或者

我不明白为什么如果我运行计数我会得到结果，但对于任何其他操作，数据框似乎是空的，任何想法为什么会发生这种情况？

scala apache-spark amazon-redshift databricks

2017-04-07T21:59:28.193

0 投票

1 回答

969 浏览

apache-spark - input_file_name 在 spark-xml 中不起作用

com.databricks.spark.xml通过格式加载xml文件时，我试图为每一行添加输入文件名。但它返回文件名的空列..

这是代码片段。我正在使用input_file_name功能：

返回：

我尝试了不同的方法，但在使用 com.databricks.spark.xml 时它仍然返回空文件名。

但是，它在为文本文件执行正常数据帧加载时效果很好。

请帮忙。

apache-spark apache-spark-sql spark-dataframe databricks

2017-04-12T14:49:31.533

0 投票

2 回答

562 浏览

java - Apache Spark 数据集 API - 不接受架构 StructType

我有以下类，它使用 Spark 数据 API 加载无头 CSV 文件。

我遇到的问题是我无法让 SparkSession 接受应该定义每一列的模式 StructType。结果数据框是字符串类型的未命名列

生成的数据框架构是：

调试器显示 'builder' StrucType 已正确定义：

我究竟做错了什么？任何帮助都非常感谢！

java csv apache-spark spark-dataframe databricks

2017-04-25T10:29:52.380

0 投票

1 回答

333 浏览

python - Python Spark Databricks 二进制分类教程 - 如何对未标记的数据进行预测？

我希望可以提出与特定教程相关的问题。也许这里有人使用相同的教程并且知道答案。

我正在关注二进制分类的 Databricks 教程，使用Kaggle Titanic Dataset。

本教程使用带标签的数据集。执行以下步骤：

预处理：索引所有分类特征，将所有特征放入一个称为“特征”的向量中。
建立模型
评估模型
作出预测

本教程使用一个大的、标记的数据集，该数据集分为训练和测试来构建模型并随后对其进行评估。我可以毫无问题地使用我的火车数据集。

现在我想对来自 Kaggle 的单独的“测试”数据集进行预测，该数据集没有标签（在我的情况下是“幸存”列，在教程的情况下“收入”列丢失）。

有人知道如何解决这个问题吗？我是否必须在测试数据集上单独执行教程的整个预处理部分，然后调用以下内容：？

还是我可能需要将缺少的标签列（收入/幸存）添加到测试数据集中，然后进行预处理，然后调用上面的？

python apache-spark pyspark databricks

2017-04-30T14:20:59.253

0 投票

1 回答

294 浏览

csv - Spark，databricks，保存到 CSV 没有列名

我正在使用 Spark databricks csv 将数据帧保存到 csv。但是，我无法获取包含列的 CSV 文件。它是纯文本。

请检查以下代码：

csv spark-dataframe databricks

2017-05-02T17:51:30.087

0 投票

2 回答

392 浏览

hadoop - Hadoop / Spark 生态系统内的数据移动

我有一个基本问题，希望能更好地理解：

背景

假设我有一个巨大的 CSV 文件（50 GB），我想将其用于数据科学团队的分析。理想情况下，团队的每个成员都能够以他们选择的语言与数据交互，数据不需要频繁移动（考虑到它的大小），并且所有人都可以灵活地访问计算资源。

建议的解决方案

Apache Spark 似乎是当前满足上述要求的解决方案的领先者。Scala、Python、SQL 和 R 都能够在灵活的计算资源之上（如果利用 DataBricks、Azure、AWS、Cloudera 等云提供商）访问其所在位置的数据。

问题

以 Microsoft Azure / HDInsight 域中的特定示例为例。假设我们要将这个大型 CSV 上传到 Azure Data Lake。如果我们随后利用 HDInsight 中的 Spark 为这些数据定义架构，我们是否需要从数据所在的位置移动/导入数据？

我的理解可能是错误的，一个关键的好处是数据能够以它的原生 CSV 格式驻留在数据湖中。在其上运行计算不需要移动它。此外，如果我们希望根据需要经常关闭/启动 Spark 集群，我们可以这样做，只需将它们重新指向廉价存储的 CSV。

结论

您能够就上述内容提供任何确认，或澄清误解，将不胜感激。Hadoop / Spark 生态系统继续快速发展，我想确保我对它当前的能力有一个正确的理解。

hadoop apache-spark cloudera azure-hdinsight databricks

2017-05-09T14:41:05.873

问题标签 [databricks]

Reference