问题标签 [spark-dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2402 浏览

python - Pyspark 通过日期和字符串数据类型之间的比较过滤数据帧

我在 pyspark 中有一个数据框,其结构如下:

DataFrame[Urlaubdate: string, Vacationdate: date, Datensatz: string, Jobname: string]

现在,我想通过比较vacationdate 和urlaubdate 来过滤数据框,不幸的是它们有不同的数据类型。我想过滤假期日期大于 Urlaubdate 的行。你知道怎么做吗?

0 投票
3 回答
8317 浏览

mysql - Spark DataFrame InsertIntoJDBC - TableAlreadyExists 异常

使用 Spark 1.4.0,我正在尝试使用 insertIntoJdbc() 将来自 Spark DataFrame 的数据插入到 MemSQL 数据库中(这应该与与 MySQL 数据库的交互完全相同)。但是,我不断收到 Runtime TableAlreadyExists 异常。

首先,我像这样创建 MemSQL 表:

然后我在 Spark 中创建一个简单的数据框并尝试像这样插入到 MemSQL 中:

0 投票
2 回答
801 浏览

pyspark - 使用 ML spark 和数据帧进行隐式推荐

我正在尝试使用带有 Spark 和 Dataframes 的新 ML 库来构建具有隐式评级的推荐器。我的代码

但是,我在这个错误中运行

pyspark.sql.utils.AnalysisException:无法解析给定输入列用户、项目的“评级”;

所以,不知道如何定义数据框

0 投票
0 回答
586 浏览

python - 镶木地板文件的火花查询 - 错误回溯说文件丢失......但文件在那里。为什么?

我正在使用 parquet 文件将数据保存在使用 Python 的 Spark 数据框中。

parquet 似乎已正确保存,但是当再次将其加载到数据帧中时,df.show() 将生成并返回错误,表明 parquet 目录中缺少文件。

奇怪的是,得到错误后立即执行 ls 命令显示该文件在那里。

对可能发生的事情有任何想法吗?

ipynb 的相关部分以纯文本形式包含在下面:


0 投票
2 回答
1303 浏览

scala - 使用 Scala 在 Spark 中将 RDD 转换为 DataFrame

我有textRDD: org.apache.spark.rdd.RDD[(String, String)]

我想将其转换为 DataFrame。列对应于每页(行)的标题和内容。

0 投票
3 回答
14349 浏览

scala - 将 RDD[org.apache.spark.sql.Row] 转换为 RDD[org.apache.spark.mllib.linalg.Vector]

我对 Spark 和 Scala 比较陌生。

我从以下数据框开始(由密集的双精度向量组成的单列):

直接转换为 RDD 会产生 org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] 的实例:

有谁知道如何将此 DF 转换为 org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] 的实例?到目前为止,我的各种尝试都没有成功。

提前感谢您的任何指点!

0 投票
1 回答
1853 浏览

scala - 如何使用 1.4 DF API (Scala) 将两个字符串列或文字连接到字符串列

当我尝试使用“+”函数将两个字符串列或一个文字与一个字符串列连接时,结果始终为空。

所以专栏就好了。但是 + 运算符总是产生空值。concat我在 1.4 API 中找不到函数。

文字也是如此

0 投票
0 回答
1051 浏览

java - 我的 spark 应用程序在对两个数据帧执行连接操作时挂起

我是新来的火花,我正在“不等于”条件下加入两个数据帧。在某一时刻,我的程序停止并且不再运行,也没有给出异常。

我正在使用一个包含 100000 条记录的简单文本文件。

我的程序中有一个非惰性方法“collectAsList”,它会导致执行连接。

这是堆栈跟踪:

0 投票
1 回答
577 浏览

scala - Spark 不允许我计算我加入的数据帧

Spark Jobs 的新手,我遇到以下问题。

当我对任何新加入的数据帧进行计数时,该作业会运行很长时间并将内存溢出到磁盘。这里有逻辑错误吗?

为什么不能再计算这两个/三个数据帧?我是否通过重命名弄乱了一些索引?

谢谢!

在此处输入图像描述

0 投票
7 回答
51317 浏览

scala - 更改火花数据框中列的可为空属性

我正在手动创建一个数据框进行一些测试。创建它的代码是:

所以架构看起来像这样:

我想为这些变量中的每一个设置“nullable = true”。如何从一开始就声明它或在创建后将其切换到新的数据框中?