问题标签 [spark-dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pyspark 通过日期和字符串数据类型之间的比较过滤数据帧
我在 pyspark 中有一个数据框,其结构如下:
DataFrame[Urlaubdate: string, Vacationdate: date, Datensatz: string, Jobname: string]
现在,我想通过比较vacationdate 和urlaubdate 来过滤数据框,不幸的是它们有不同的数据类型。我想过滤假期日期大于 Urlaubdate 的行。你知道怎么做吗?
mysql - Spark DataFrame InsertIntoJDBC - TableAlreadyExists 异常
使用 Spark 1.4.0,我正在尝试使用 insertIntoJdbc() 将来自 Spark DataFrame 的数据插入到 MemSQL 数据库中(这应该与与 MySQL 数据库的交互完全相同)。但是,我不断收到 Runtime TableAlreadyExists 异常。
首先,我像这样创建 MemSQL 表:
然后我在 Spark 中创建一个简单的数据框并尝试像这样插入到 MemSQL 中:
pyspark - 使用 ML spark 和数据帧进行隐式推荐
我正在尝试使用带有 Spark 和 Dataframes 的新 ML 库来构建具有隐式评级的推荐器。我的代码
但是,我在这个错误中运行
pyspark.sql.utils.AnalysisException:无法解析给定输入列用户、项目的“评级”;
所以,不知道如何定义数据框
python - 镶木地板文件的火花查询 - 错误回溯说文件丢失......但文件在那里。为什么?
我正在使用 parquet 文件将数据保存在使用 Python 的 Spark 数据框中。
parquet 似乎已正确保存,但是当再次将其加载到数据帧中时,df.show() 将生成并返回错误,表明 parquet 目录中缺少文件。
奇怪的是,得到错误后立即执行 ls 命令显示该文件在那里。
对可能发生的事情有任何想法吗?
ipynb 的相关部分以纯文本形式包含在下面:
scala - 使用 Scala 在 Spark 中将 RDD 转换为 DataFrame
我有textRDD: org.apache.spark.rdd.RDD[(String, String)]
我想将其转换为 DataFrame。列对应于每页(行)的标题和内容。
scala - 将 RDD[org.apache.spark.sql.Row] 转换为 RDD[org.apache.spark.mllib.linalg.Vector]
我对 Spark 和 Scala 比较陌生。
我从以下数据框开始(由密集的双精度向量组成的单列):
直接转换为 RDD 会产生 org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] 的实例:
有谁知道如何将此 DF 转换为 org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector] 的实例?到目前为止,我的各种尝试都没有成功。
提前感谢您的任何指点!
scala - 如何使用 1.4 DF API (Scala) 将两个字符串列或文字连接到字符串列
当我尝试使用“+”函数将两个字符串列或一个文字与一个字符串列连接时,结果始终为空。
所以专栏就好了。但是 + 运算符总是产生空值。concat
我在 1.4 API 中找不到函数。
文字也是如此
java - 我的 spark 应用程序在对两个数据帧执行连接操作时挂起
我是新来的火花,我正在“不等于”条件下加入两个数据帧。在某一时刻,我的程序停止并且不再运行,也没有给出异常。
我正在使用一个包含 100000 条记录的简单文本文件。
我的程序中有一个非惰性方法“collectAsList”,它会导致执行连接。
这是堆栈跟踪:
scala - 更改火花数据框中列的可为空属性
我正在手动创建一个数据框进行一些测试。创建它的代码是:
所以架构看起来像这样:
我想为这些变量中的每一个设置“nullable = true”。如何从一开始就声明它或在创建后将其切换到新的数据框中?