问题标签 [databricks]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark - 从配置单元查询时不可见 avro 数据
我正在使用 spark avro 创建数据框,例如
在我的情况下,输出路径将类似于hdfs path + table_name + partitio n
表 table_name 已经使用 AvroSerDe 在 Hive 中创建,其中 LOCATION 设置为 outputPath。
但是,当我从 hive 为 table_name 执行 select * 时,创建的数据框不可见。可能是什么问题
apache-spark - NoSuchMethodError 使用 Databricks Spark-Avro 3.2.0
我有一个 spark master & worker 在 Docker 容器中运行,带有 spark 2.0.2 和 hadoop 2.7。我正在尝试通过运行从不同的容器(相同的网络)提交来自 pyspark 的作业
但我收到了这个错误:
如果我尝试以交互方式或使用 spark-submit 没有区别。这些是我在 spark 中加载的包:
spark-submit --version
输出:
斯卡拉版本是 2.11.8
我的 pyspark 命令:
我的火花提交命令:
我在这里读到这可能是由“正在使用旧版本的 avro”引起的,所以我尝试使用 1.8.1,但我一直收到同样的错误。阅读 avro 工作正常。有什么帮助吗?
mongodb - PySpark Mongodb / java.lang.NoClassDefFoundError: org/apache/spark/sql/DataFrame
我正在尝试将 pyspark 连接到 MongoDB(在 Databricks 上运行):
但我得到这个错误
java.lang.NoClassDefFoundError: org/apache/spark/sql/DataFrame
我正在使用 Spark 2.0 和 Mongo-spark-connector 2.11 并定义 spark.mongodb.input.uri 和 spark.mongodb.output.uri
hadoop - 无法在 spark 中读取 .zip 文件
我能够通过 spark csv 读取 .gz 文件并获得预期的结果。但是,在尝试读取 .zip 文件时,spark 会给出意想不到的结果,例如 wV�J�.f�T n。
我访问过“ https://github.com/apache/hadoop/tree/trunk/hadoop-common-project/hadoop-common/src/main/java/org/apache/hadoop/io/compress ”,但没有找不到 .zip 文件的任何压缩编解码器。
我在stackoverflow上进行了搜索,但没有得到任何令人满意的结果。
如果有人遇到同样的问题或对此有任何解决方案,请提供更多信息。
scala - 奇怪的错误我不能对数据框做任何事情,但它不是空的
我正在使用带有 Spark 1.6.0 (Hadoop 1) 的数据块在 scala 中运行一个查询,以过滤我在 redshift 中拥有的一些 URL 数据,但是一旦查询成功完成,如果我对数据框运行计数,它表明存在数据框上的数据,但我尝试显示数据或连接数据 数据框似乎为空,它不显示任何内容,也无法进行连接。
这是将数据导入数据块的代码
实际数据是这样的
或者
我不明白为什么如果我运行计数我会得到结果,但对于任何其他操作,数据框似乎是空的,任何想法为什么会发生这种情况?
apache-spark - input_file_name 在 spark-xml 中不起作用
com.databricks.spark.xml
通过格式加载xml文件时,我试图为每一行添加输入文件名。但它返回文件名的空列..
这是代码片段。我正在使用input_file_name
功能:
返回:
我尝试了不同的方法,但在使用 com.databricks.spark.xml 时它仍然返回空文件名。
但是,它在为文本文件执行正常数据帧加载时效果很好。
请帮忙。
java - Apache Spark 数据集 API - 不接受架构 StructType
我有以下类,它使用 Spark 数据 API 加载无头 CSV 文件。
我遇到的问题是我无法让 SparkSession 接受应该定义每一列的模式 StructType。结果数据框是字符串类型的未命名列
生成的数据框架构是:
调试器显示 'builder' StrucType 已正确定义:
我究竟做错了什么?任何帮助都非常感谢!
python - Python Spark Databricks 二进制分类教程 - 如何对未标记的数据进行预测?
我希望可以提出与特定教程相关的问题。也许这里有人使用相同的教程并且知道答案。
我正在关注二进制分类的 Databricks 教程,使用Kaggle Titanic Dataset。
本教程使用带标签的数据集。执行以下步骤:
- 预处理:索引所有分类特征,将所有特征放入一个称为“特征”的向量中。
- 建立模型
- 评估模型
- 作出预测
本教程使用一个大的、标记的数据集,该数据集分为训练和测试来构建模型并随后对其进行评估。我可以毫无问题地使用我的火车数据集。
现在我想对来自 Kaggle 的单独的“测试”数据集进行预测,该数据集没有标签(在我的情况下是“幸存”列,在教程的情况下“收入”列丢失)。
有人知道如何解决这个问题吗?我是否必须在测试数据集上单独执行教程的整个预处理部分,然后调用以下内容:?
还是我可能需要将缺少的标签列(收入/幸存)添加到测试数据集中,然后进行预处理,然后调用上面的?
csv - Spark,databricks,保存到 CSV 没有列名
我正在使用 Spark databricks csv 将数据帧保存到 csv。但是,我无法获取包含列的 CSV 文件。它是纯文本。
请检查以下代码:
hadoop - Hadoop / Spark 生态系统内的数据移动
我有一个基本问题,希望能更好地理解:
背景
假设我有一个巨大的 CSV 文件(50 GB),我想将其用于数据科学团队的分析。理想情况下,团队的每个成员都能够以他们选择的语言与数据交互,数据不需要频繁移动(考虑到它的大小),并且所有人都可以灵活地访问计算资源。
建议的解决方案
Apache Spark 似乎是当前满足上述要求的解决方案的领先者。Scala、Python、SQL 和 R 都能够在灵活的计算资源之上(如果利用 DataBricks、Azure、AWS、Cloudera 等云提供商)访问其所在位置的数据。
问题
以 Microsoft Azure / HDInsight 域中的特定示例为例。假设我们要将这个大型 CSV 上传到 Azure Data Lake。如果我们随后利用 HDInsight 中的 Spark 为这些数据定义架构,我们是否需要从数据所在的位置移动/导入数据?
我的理解可能是错误的,一个关键的好处是数据能够以它的原生 CSV 格式驻留在数据湖中。在其上运行计算不需要移动它。此外,如果我们希望根据需要经常关闭/启动 Spark 集群,我们可以这样做,只需将它们重新指向廉价存储的 CSV。
结论
您能够就上述内容提供任何确认,或澄清误解,将不胜感激。Hadoop / Spark 生态系统继续快速发展,我想确保我对它当前的能力有一个正确的理解。