问题标签 [data-preprocessing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 python (Jupyter notebook) 对 json 数据进行数据预处理
我正在尝试为 json 数据集实现一些预处理命令。使用 .csv 文件很容易,但我无法了解如何实现一些预处理命令,如 isnull()、fillna()、dropna() 和 imputer 类。
以下是我已执行但未能执行上述操作的一些命令,因为我无法弄清楚如何使用 Json 文件数据集。
数据集链接:https ://drive.google.com/file/d/1puNNrRaV-Jt_kt709fuYGCvDW9-EuwoB/view?usp=sharing
python - 拆分单个大型 csv 文件以按两列重新采样
我正在使用手机传感器数据(加速度计)进行机器学习项目。在将数据集导出到 ML 模型之前,我需要对其进行预处理。我有 25 个班级(数据集中的字母表),每个班级有 20 个科目(我得到字母表的次数)。由于每个班级和科目的长度不同,我必须重新采样。我想按类拆分单个 csv 文件,并且能够重新采样。我尝试了一些类似 groupby() 或其他东西的东西,但没有奏效。如果你能分享我能解决这个问题的想法,我会很高兴。这是我第一次在这个网站上提问,如果我犯了错误,如果你警告我我的错误,我将不胜感激。从现在开始谢谢你。
我分享了一些代码和输出,以帮助您更好地理解我的问题。
当我尝试使用 groupby() 时得到了什么,但不完全是我想要的
<a href="https://i.stack.imgur.com/Pm8rp.png" rel="nofollow noreferrer">这就是我的 csv 文件的样子。它包含超过 300,000 条数据。
一些代码片段:
我还需要为每个 x_axis、y_axis 和 z_axis 执行此操作,那么除了 groupby() 函数我还能使用什么?我不想只使用长度,还想使用所有三个的值来重新采样。
python - 从数值特征中去除异常值
嗨,我正在尝试从具有数字特征的列中删除异常值,但是当我执行我的代码时,整个数据集都被删除了,请告诉我我做错了什么
r - 如何将 .txt 数据逐行读取到 R 中的表中?
我有一个文本文件,我希望将其转换为 R 中的表格格式。
我曾尝试使用 read_table 但它自动假定为 1 列。我应该如何读取数据,因为它们是按行列出的?
这是我的文本文件的样子:
python - 为什么它显示空数组?
我正在使用 z score 方法去除异常值..但是当我设置阈值并打印低于该阈值的数据时,我得到了空数组。我试过下面的代码。
它显示以下输出而不是显示一个值的数组。
python - sklearn 中计算的 Robustscaler 似乎不对
我在sklearn中尝试了Robustscaler,发现结果和公式不一样。
sklearn中Robustscaler的公式为:
我有一个如下所示的矩阵:
我测试功能一(第一行和第一列)中的第一个数据。缩放值应该是(1-3)/(5.5-1.5) = -0.5
。但是,sklearn 的结果是-0.67
. 有谁知道哪里计算不正确?
使用 sklearn 的代码如下:
machine-learning - 默认情况下总是标准化所有功能是一个坏主意吗?
默认情况下是否有理由不标准化所有功能?我意识到它可能不是必要的,例如决策树,但对于某些算法,如 KNN、SVM 和 K-Means。例行地对我的所有功能执行此操作会有什么害处吗?
此外,标准化比标准化更可取的共识似乎是?什么时候这不是一个好主意?
python - 如何在python中选择具有相同id的列表?
我有一个看起来像这样的数据框:
ID | 地方 | 年龄 | 性别 |
---|---|---|---|
13 | 1 | 3 | 1 |
13 | 2 | 4 | 1 |
13 | 3 | 3 | 2 |
13 | 4 | 4 | 2 |
14 | 1 | 3 | 1 |
14 | 2 | 4 | 1 |
14 | 3 | 3 | 2 |
我想 select place
,age
并且gender
whereid
在 Python 中是独一无二的。例如id=13
,我想选择矩阵:
地方 | 年龄 | 性别 |
---|---|---|
1 | 3 | 1 |
2 | 4 | 1 |
3 | 3 | 2 |
4 | 4 | 2 |
请注意,id 的长度不同。谢谢您的帮助。
pandas - 将多个列转换为熊猫中一列的类别
这是一个使用一种热编码转换的数据集,0 表示否,1 表示是
数据:
ID | 红色的 | 蓝色的 | 绿色的 | 黄色 | 橙子 |
---|---|---|---|---|---|
1001 | 1 | 0 | 1 | 0 | 1 |
1002 | 0 | 1 | 0 | 1 | 0 |
1003 | 0 | 0 | 0 | 1 | 1 |
1004 | 0 | 0 | 0 | 0 | 0 |
1005 | 1 | 0 | 0 | 1 | 0 |
如何在 Pandas 中将上述一个热编码数据集转换为以下一个
预期输出:
ID | 颜色 |
---|---|
1001 | 红色的 |
1001 | 绿色的 |
1001 | 橙子 |
1002 | 蓝色的 |
1002 | 黄色 |
1003 | 黄色 |
1003 | 橙子 |
1005 | 红色的 |
1005 | 黄色 |