问题标签 [spark-dataframe]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3700 问题

0 投票

1 回答

2402 浏览

python - Pyspark 通过日期和字符串数据类型之间的比较过滤数据帧

我在 pyspark 中有一个数据框，其结构如下：

DataFrame[Urlaubdate: string, Vacationdate: date, Datensatz: string, Jobname: string]

现在，我想通过比较vacationdate 和urlaubdate 来过滤数据框，不幸的是它们有不同的数据类型。我想过滤假期日期大于 Urlaubdate 的行。你知道怎么做吗？

python dataframe pyspark spark-dataframe

2015-10-02T17:10:30.803

0 投票

3 回答

8317 浏览

mysql - Spark DataFrame InsertIntoJDBC - TableAlreadyExists 异常

使用 Spark 1.4.0，我正在尝试使用 insertIntoJdbc() 将来自 Spark DataFrame 的数据插入到 MemSQL 数据库中（这应该与与 MySQL 数据库的交互完全相同）。但是，我不断收到 Runtime TableAlreadyExists 异常。

首先，我像这样创建 MemSQL 表：

然后我在 Spark 中创建一个简单的数据框并尝试像这样插入到 MemSQL 中：

mysql apache-spark spark-dataframe singlestore

2015-10-02T20:52:06.687

0 投票

2 回答

801 浏览

pyspark - 使用 ML spark 和数据帧进行隐式推荐

我正在尝试使用带有 Spark 和 Dataframes 的新 ML 库来构建具有隐式评级的推荐器。我的代码

但是，我在这个错误中运行

pyspark.sql.utils.AnalysisException：无法解析给定输入列用户、项目的“评级”；

所以，不知道如何定义数据框

pyspark recommendation-engine spark-dataframe apache-spark-ml

2015-10-04T10:03:38.677

0 投票

0 回答

586 浏览

python - 镶木地板文件的火花查询 - 错误回溯说文件丢失......但文件在那里。为什么？

我正在使用 parquet 文件将数据保存在使用 Python 的 Spark 数据框中。

parquet 似乎已正确保存，但是当再次将其加载到数据帧中时，df.show() 将生成并返回错误，表明 parquet 目录中缺少文件。

奇怪的是，得到错误后立即执行 ls 命令显示该文件在那里。

对可能发生的事情有任何想法吗？

ipynb 的相关部分以纯文本形式包含在下面：

python apache-spark apache-spark-sql parquet spark-dataframe

2015-10-05T23:54:57.287

0 投票

2 回答

1303 浏览

scala - 使用 Scala 在 Spark 中将 RDD 转换为 DataFrame

我有textRDD: org.apache.spark.rdd.RDD[(String, String)]

我想将其转换为 DataFrame。列对应于每页（行）的标题和内容。

scala apache-spark type-conversion rdd spark-dataframe

2015-10-08T18:27:45.363

0 投票

3 回答

14349 浏览

scala - 将 RDD[org.apache.spark.sql.Row] 转换为 RDD[org.apache.spark.mllib.linalg.Vector]

我对 Spark 和 Scala 比较陌生。

我从以下数据框开始（由密集的双精度向量组成的单列）：

直接转换为 RDD 会产生 org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] 的实例：

有谁知道如何将此 DF 转换为 org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] 的实例？到目前为止，我的各种尝试都没有成功。

提前感谢您的任何指点！

scala apache-spark rdd spark-dataframe apache-spark-mllib

2015-10-09T22:43:01.687

0 投票

1 回答

1853 浏览

scala - 如何使用 1.4 DF API (Scala) 将两个字符串列或文字连接到字符串列

当我尝试使用“+”函数将两个字符串列或一个文字与一个字符串列连接时，结果始终为空。

所以专栏就好了。但是 + 运算符总是产生空值。concat我在 1.4 API 中找不到函数。

文字也是如此

scala spark-dataframe

2015-10-11T17:48:50.203

0 投票

0 回答

1051 浏览

java - 我的 spark 应用程序在对两个数据帧执行连接操作时挂起

我是新来的火花，我正在“不等于”条件下加入两个数据帧。在某一时刻，我的程序停止并且不再运行，也没有给出异常。

我正在使用一个包含 100000 条记录的简单文本文件。

我的程序中有一个非惰性方法“collectAsList”，它会导致执行连接。

这是堆栈跟踪：

java scala apache-spark apache-spark-sql spark-dataframe

2015-10-14T13:37:53.200

0 投票

1 回答

577 浏览

scala - Spark 不允许我计算我加入的数据帧

Spark Jobs 的新手，我遇到以下问题。

当我对任何新加入的数据帧进行计数时，该作业会运行很长时间并将内存溢出到磁盘。这里有逻辑错误吗？

为什么不能再计算这两个/三个数据帧？我是否通过重命名弄乱了一些索引？

谢谢！

scala apache-spark spark-dataframe

2015-10-16T14:50:56.990

0 投票

7 回答

51317 浏览

scala - 更改火花数据框中列的可为空属性

我正在手动创建一个数据框进行一些测试。创建它的代码是：

所以架构看起来像这样：

我想为这些变量中的每一个设置“nullable = true”。如何从一开始就声明它或在创建后将其切换到新的数据框中？

scala apache-spark spark-dataframe

2015-10-18T03:20:53.910

1 2 3 4 5 6 7 8 9 10