问题标签 [spark-koalas]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - 在 databricks/koalas 上运行 pandas 脚本在新列中返回空结果
我们的项目继承了一些pandas 代码在 databricks/koalas 上运行时在新创建的列中返回空值。我们试图弄清楚为什么和/或如何改变它以产生与我们在桌面上使用 python 得到的结果相同的结果。代码和示例配置如下:
配置
功能
python - 我想将两个 DataFrame 与其列字符串进行比较。Str 比较应该使用 split() 以不同的方式完成,包括所有规范字符
输入 DataFrame X 包含列名 A
一个 |
---|
类风湿关节炎 |
母乳喂养,独家 |
失智 |
髋部骨折 |
HIV爱滋病 |
DataFrame Y 包含列名 B
乙 |
---|
类风湿关节炎 |
高血压前期 |
肝细胞癌 |
HIV爱滋病 |
白血病,骨髓 |
白血病,骨髓,急性 |
母乳喂养!独家 |
所需的输出 如果 X[A] 匹配到 Y[B] 它应该只是替换它并且 DataFrame Y 应该是 。
乙 |
---|
类风湿关节炎 |
HIV爱滋病 |
母乳喂养,独家 |
并且 X[A] 与 Y[B] 的不匹配创建了一个空的数据帧 non_match ,它应该看起来像这样
非 |
---|
高血压前期 |
肝细胞癌 |
白血病,骨髓 |
白血病,骨髓,急性 |
这两个代码都不起作用?请帮我另一个代码
python - 如何在 palantir-foundry 中导入和使用 Spark-Koalas
我如何——在 Palantir-foundry 中——导入和使用“Koalas: pandas API for Apache Spark”开源 python 包。
我知道您可以通过 Code Repo 导入不存在的包并完成此操作,我可以为 Koalas 包执行相同的过程还是需要遵循另一条路线?
pyspark - 在 koalas to_table 中设置 NOT NULL 列
当我创建一个 Delta 表时,我可以将一些列设置为 NOT NULL
有没有办法用 设置非空列koalas.to_table
?
python - 考拉中的样本数据集
我有以下使用熊猫数据框的代码。但是,当我将 Pandas 数据框转换为 Koalas 并运行以下代码时,出现错误“函数示例当前不支持指定要返回的确切项目数。请改用 frac”
我尝试使用下面的代码给我随机记录。但是如何获取数据框中的所有记录并用空值替换 5% 记录的距离
df.sample(frac=0.05, random_state=1)
python - 向现有 Koalas Dataframe 添加新列会导致 NaN
我正在尝试向我现有的 Koalas 数据框添加一个新列。但是一旦添加了新列,这些值就会变成 NaN。我不确定这里发生了什么,有人可以给我一些指示吗?
这是代码:
pandas - 使用 TopN 与考拉进行绘图有任何统计意义吗?
我正在浏览Koalas的源代码,试图了解它们如何真正实现绘制大型数据集。事实证明,他们要么使用抽样,要么使用TopN
- 选择给定数量的记录。
我了解采样的含义,并且在内部使用它spark.DataFrame.sample
来执行此操作。但是,对于TopN
,他们只是max_rows
使用data = data.head(max_rows + 1).to_pandas()
.
这看起来很奇怪,我想知道它是否正确反映了以这种方式进行数据选择的数据集的统计属性。
Koalas DataFrame 的绘图访问器:
python - 如何在 Python 中向 Json 添加新字段?
我是一名基本的 Python 程序员。我正在使用 python3 并尝试将元素添加到字典列表中。我想向列表的每个字典添加不同的元素。我尝试使用 append()、add() 和 insert,但糟糕的是我没有找到任何运气。这是我的代码和下面的预期输出。
任何帮助是极大的赞赏!谢谢 :)
python - 使用 koalas read_excel() 将 excel 读取到数据框时,没有值的列会出现错误“无法推断架构”
在使用 dtype 为str的databricks koalas read_excel() 将 excel 文件作为数据框读取时,如果列没有值,则会给出错误
无法从空数据集中推断模式
如何解决这个问题?如果我将 dtype 更改为None,它不会抛出错误。但数字数据将以科学形式读取。
我试着写转换器:
(dtype=str 不适用于转换器,因此已删除)。但这会将字符串“NA”读取为空。我想要源文件中的数据。
databricks - Koalas 数据框随着 Deltalake 的更新而实时更新
我正在研究一种解决方案,该解决方案使用以下代码通过给定索引更新 delta 湖:
我遇到的问题是尝试在 for 循环中索引子数据帧时出现的关键错误。
这似乎是因为数据框本身在更新 delta 湖后被更新为不包含任何 status = 0 的记录,这意味着索引发生了变化,从而给出了一个关键错误。
有什么方法可以将子数据帧变成一个非实时数据帧,随着 deltalake 的更新,该数据帧不会被更新?
还要注意我需要在代码运行时更新,而不是在所有代码运行后只更新一次。
谢谢!