问题标签 [data-preprocessing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
546 浏览

python - 使用 python (Jupyter notebook) 对 json 数据进行数据预处理

我正在尝试为 json 数据集实现一些预处理命令。使用 .csv 文件很容易,但我无法了解如何实现一些预处理命令,如 isnull()、fillna()、dropna() 和 imputer 类。

以下是我已执行但未能执行上述操作的一些命令,因为我无法弄清楚如何使用 Json 文件数据集。

数据集链接:https ://drive.google.com/file/d/1puNNrRaV-Jt_kt709fuYGCvDW9-EuwoB/view?usp=sharing

0 投票
1 回答
104 浏览

python - 拆分单个大型 csv 文件以按两列重新采样

我正在使用手机传感器数据(加速度计)进行机器学习项目。在将数据集导出到 ML 模型之前,我需要对其进行预处理。我有 25 个班级(数据集中的字母表),每个班级有 20 个科目(我得到字母表的次数)。由于每个班级和科目的长度不同,我必须重新采样。我想按类拆分单个 csv 文件,并且能够重新采样。我尝试了一些类似 groupby() 或其他东西的东西,但没有奏效。如果你能分享我能解决这个问题的想法,我会很高兴。这是我第一次在这个网站上提问,如果我犯了错误,如果你警告我我的错误,我将不胜感激。从现在开始谢谢你。

我分享了一些代码和输出,以帮助您更好地理解我的问题。

当我尝试使用 groupby() 时得到了什么,但不完全是我想要的

<a href="https://i.stack.imgur.com/Pm8rp.png" rel="nofollow noreferrer">这就是我的 csv 文件的样子。它包含超过 300,000 条数据。

一些代码片段:

我还需要为每个 x_axis、y_axis 和 z_axis 执行此操作,那么除了 groupby() 函数我还能使用什么?我不想只使用长度,还想使用所有三个的值来重新采样。

0 投票
1 回答
79 浏览

python - 从数值特征中去除异常值

嗨,我正在尝试从具有数字特征的列中删除异常值,但是当我执行我的代码时,整个数据集都被删除了,请告诉我我做错了什么

0 投票
1 回答
54 浏览

r - 如何将 .txt 数据逐行读取到 R 中的表中?

我有一个文本文件,我希望将其转换为 R 中的表格格式。

我曾尝试使用 read_table 但它自动假定为 1 列。我应该如何读取数据,因为它们是按行列出的?

这是我的文本文件的样子:

0 投票
1 回答
79 浏览

python - 为什么它显示空数组?

我正在使用 z score 方法去除异常值..但是当我设置阈值并打印低于该阈值的数据时,我得到了空数组。我试过下面的代码。

它显示以下输出而不是显示一个值的数组。

0 投票
1 回答
856 浏览

python - sklearn 中计算的 Robustscaler 似乎不对

我在sklearn中尝试了Robustscaler,发现结果和公式不一样。

sklearn中Robustscaler的公式为:

图 1. 计算 Robustscaler 的公式

我有一个如下所示的矩阵:

图 2. 测试矩阵

我测试功能一(第一行和第一列)中的第一个数据。缩放值应该是(1-3)/(5.5-1.5) = -0.5。但是,sklearn 的结果是-0.67. 有谁知道哪里计算不正确?

使用 sklearn 的代码如下:

0 投票
1 回答
142 浏览

machine-learning - 默认情况下总是标准化所有功能是一个坏主意吗?

默认情况下是否有理由不标准化所有功能?我意识到它可能不是必要的,例如决策树,但对于某些算法,如 KNN、SVM 和 K-Means。例行地对我的所有功能执行此操作会有什么害处吗?

此外,标准化比标准化更可取的共识似乎是?什么时候这不是一个好主意?

0 投票
1 回答
62 浏览

python - 如何在python中选择具有相同id的列表?

我有一个看起来像这样的数据框:

ID 地方 年龄 性别
13 1 3 1
13 2 4 1
13 3 3 2
13 4 4 2
14 1 3 1
14 2 4 1
14 3 3 2

我想 select placeage并且genderwhereid在 Python 中是独一无二的。例如id=13,我想选择矩阵:

地方 年龄 性别
1 3 1
2 4 1
3 3 2
4 4 2

请注意,id 的长度不同。谢谢您的帮助。

0 投票
1 回答
23 浏览

pandas - 将多个列转换为熊猫中一列的类别

这是一个使用一种热编码转换的数据集,0 表示否,1 表示是

数据:

ID 红色的 蓝色的 绿色的 黄色 橙子
1001 1 0 1 0 1
1002 0 1 0 1 0
1003 0 0 0 1 1
1004 0 0 0 0 0
1005 1 0 0 1 0

如何在 Pandas 中将上述一个热编码数据集转换为以下一个

预期输出:

ID 颜色
1001 红色的
1001 绿色的
1001 橙子
1002 蓝色的
1002 黄色
1003 黄色
1003 橙子
1005 红色的
1005 黄色
0 投票
1 回答
52 浏览

python - 在将它们拆分为熊猫后,将它们交叉连接到熊猫中的 2 列

我有来自 csv 文件的两列:

在此处输入图像描述

我想以它们看起来像这样的方式处理它们

在此处输入图像描述

请注意,它们不是逗号(,)分隔的。

我尝试了很多东西,但没有一个成功。这让我的工作耽搁了很长时间。

感谢所有的答案。