问题标签 [data-preprocessing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

227 问题

0 投票

2 回答

546 浏览

python - 使用 python (Jupyter notebook) 对 json 数据进行数据预处理

我正在尝试为 json 数据集实现一些预处理命令。使用 .csv 文件很容易，但我无法了解如何实现一些预处理命令，如 isnull()、fillna()、dropna() 和 imputer 类。

以下是我已执行但未能执行上述操作的一些命令，因为我无法弄清楚如何使用 Json 文件数据集。

数据集链接：https ://drive.google.com/file/d/1puNNrRaV-Jt_kt709fuYGCvDW9-EuwoB/view?usp=sharing

python json pandas jupyter-notebook data-preprocessing

2021-01-22T13:07:18.290

0 投票

1 回答

104 浏览

python - 拆分单个大型 csv 文件以按两列重新采样

我正在使用手机传感器数据（加速度计）进行机器学习项目。在将数据集导出到 ML 模型之前，我需要对其进行预处理。我有 25 个班级（数据集中的字母表），每个班级有 20 个科目（我得到字母表的次数）。由于每个班级和科目的长度不同，我必须重新采样。我想按类拆分单个 csv 文件，并且能够重新采样。我尝试了一些类似 groupby() 或其他东西的东西，但没有奏效。如果你能分享我能解决这个问题的想法，我会很高兴。这是我第一次在这个网站上提问，如果我犯了错误，如果你警告我我的错误，我将不胜感激。从现在开始谢谢你。

我分享了一些代码和输出，以帮助您更好地理解我的问题。

当我尝试使用 groupby() 时得到了什么，但不完全是我想要的

<a href="https://i.stack.imgur.com/Pm8rp.png" rel="nofollow noreferrer">这就是我的 csv 文件的样子。它包含超过 300,000 条数据。

一些代码片段：

我还需要为每个 x_axis、y_axis 和 z_axis 执行此操作，那么除了 groupby() 函数我还能使用什么？我不想只使用长度，还想使用所有三个的值来重新采样。

python csv android-sensors resampling data-preprocessing

2021-01-23T09:39:03.100

0 投票

1 回答

79 浏览

python - 从数值特征中去除异常值

嗨，我正在尝试从具有数字特征的列中删除异常值，但是当我执行我的代码时，整个数据集都被删除了，请告诉我我做错了什么

python data-mining outliers data-preprocessing

2021-01-29T13:26:36.900

0 投票

1 回答

54 浏览

r - 如何将 .txt 数据逐行读取到 R 中的表中？

我有一个文本文件，我希望将其转换为 R 中的表格格式。

我曾尝试使用 read_table 但它自动假定为 1 列。我应该如何读取数据，因为它们是按行列出的？

这是我的文本文件的样子：

r row data-manipulation data-preprocessing

2021-02-01T09:05:39.767

0 投票

1 回答

79 浏览

python - 为什么它显示空数组？

我正在使用 z score 方法去除异常值..但是当我设置阈值并打印低于该阈值的数据时，我得到了空数组。我试过下面的代码。

它显示以下输出而不是显示一个值的数组。

python algorithm machine-learning outliers data-preprocessing

user14919697

2021-02-03T04:34:26.537

0 投票

1 回答

856 浏览

python - sklearn 中计算的 Robustscaler 似乎不对

我在sklearn中尝试了Robustscaler，发现结果和公式不一样。

sklearn中Robustscaler的公式为：

图 1. 计算 Robustscaler 的公式

我有一个如下所示的矩阵：

图 2. 测试矩阵

我测试功能一（第一行和第一列）中的第一个数据。缩放值应该是(1-3)/(5.5-1.5) = -0.5。但是，sklearn 的结果是-0.67. 有谁知道哪里计算不正确？

使用 sklearn 的代码如下：

python scikit-learn data-preprocessing

2021-02-06T02:02:35.807

0 投票

1 回答

142 浏览

machine-learning - 默认情况下总是标准化所有功能是一个坏主意吗？

默认情况下是否有理由不标准化所有功能？我意识到它可能不是必要的，例如决策树，但对于某些算法，如 KNN、SVM 和 K-Means。例行地对我的所有功能执行此操作会有什么害处吗？

此外，标准化比标准化更可取的共识似乎是？什么时候这不是一个好主意？

machine-learning scikit-learn normalize data-preprocessing

2021-02-21T14:37:57.757

0 投票

1 回答

62 浏览

python - 如何在python中选择具有相同id的列表？

我有一个看起来像这样的数据框：

ID	地方	年龄	性别
13	1	3	1
13	2	4	1
13	3	3	2
13	4	4	2
14	1	3	1
14	2	4	1
14	3	3	2

我想 select place，age并且genderwhereid在 Python 中是独一无二的。例如id=13，我想选择矩阵：

地方	年龄	性别
1	3	1
2	4	1
3	3	2
4	4	2

请注意，id 的长度不同。谢谢您的帮助。

python pandas data-preprocessing

2021-02-22T15:28:29.117

0 投票

1 回答

23 浏览

pandas - 将多个列转换为熊猫中一列的类别

这是一个使用一种热编码转换的数据集，0 表示否，1 表示是

数据：

ID	红色的	蓝色的	绿色的	黄色	橙子
1001	1	0	1	0	1
1002	0	1	0	1	0
1003	0	0	0	1	1
1004	0	0	0	0	0
1005	1	0	0	1	0

如何在 Pandas 中将上述一个热编码数据集转换为以下一个

预期输出：

ID	颜色
1001	红色的
1001	绿色的
1001	橙子
1002	蓝色的
1002	黄色
1003	黄色
1003	橙子
1005	红色的
1005	黄色

pandas data-analysis data-cleaning one-hot-encoding data-preprocessing

2021-02-23T14:50:06.187

0 投票

1 回答

52 浏览

python - 在将它们拆分为熊猫后，将它们交叉连接到熊猫中的 2 列

我有来自 csv 文件的两列：

我想以它们看起来像这样的方式处理它们

请注意，它们不是逗号（，）分隔的。

我尝试了很多东西，但没有一个成功。这让我的工作耽搁了很长时间。

感谢所有的答案。

python pandas data-wrangling data-preprocessing

2021-02-26T12:35:17.387

1 2 3 4 5 6 7 8 9 10