问题标签 [data-preprocessing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
19 浏览

python - 删除高度相关的比率并保留与因变量更相关的比率

我知道在这方面也有人问过类似的问题,但我仍然无法弄清楚这一点。我有一个 (v1, ..., vN) 变量的 NbyN 相关矩阵,我想首先确定高度相关的比率。这部分简单直接。然后,假设我确定了高度相关的对 (v1, v2)。为了决定保留哪一个,我使用二元因变量并计算 Kruskal-Wallis 检验以删除因变量具有最高 p 值的那个。这听起来像是一个好方法吗?你认为我应该如何编写这个 Python 并且我是否缺少变量之间的互连,假设 v1 与 v2 以及 v3 相关?

0 投票
2 回答
158 浏览

r - 应用归一化和结构更改后的数据值 NaN

我试图在使用神经网络函数之前对我的值进行归一化,但是,当对我的值进行归一化时,它们会变成 NaN,我从 dataDelay 变量中的值如何变为具有 88 个变量而不是原始数量的单个观察值。

数据延迟输出:

标准化后:

应用于完整数据集:

[在完整数据集上应用解决方案代码后的问题]

完整数据集:https ://www.dropbox.com/s/17exy1968lsidsc/ExchangeUSDcsv.csv?dl=0

应用于完整数据集时的输出:

0 投票
0 回答
135 浏览

python - ValueError:无穷大或对于 dtype('float32') 来说太大的值

我试图在数据集上使用此代码包含 141483 行和 73 个特征。

我收到了这个错误

我确定没有 NaN 值,因此它必须是无穷大或对于dtype('float32').

所有特征都转换为 float64

如何修复它或找到出现错误的行或功能?

因为我有太多的功能和行我不介意删除导致必要的行

0 投票
0 回答
18 浏览

python - 当我通过调用函数打印火车标签时,我得到空列表

root_folder_train = '/content/gdrive/My Drive/Deep Learning FYP/Code/train/' root_folder_test = '/content/gdrive/My Drive/Deep Learning FYP/Code/test/' emo_folder = os.listdir(root_folder_train) # emo_folder包含 7 个训练图像文件夹 emo_folder_test = os.listdir(root_folder_test) # emo_folder 包含 7 个测试图像文件夹

0 投票
3 回答
336 浏览

python - 将数据框列字符串值转换为虚拟变量列

我有以下数据框(不包括其余列):

我正在预处理我的数据以适合模型。我想将部门变量转换为每个独特部门类别的虚拟变量(无论可能有多少独特的部门,不仅限于这里的内容)。

想要得到这个结果:

我试过这个链接,但是当我拼接它时,它把它当作一个字符串来对待,并且只为字符串中的每个字符创建一个列;我用的是什么:

然后我尝试使用以下方法拆分字符串并变成一个列表:

然后再次尝试,仍然只为每个字符创建列。

有什么建议么?

编辑:我使用 anky 发送过来的链接找到了答案,特别是我使用了这个:https ://stackoverflow.com/a/29036042

什么对我有用:

0 投票
1 回答
494 浏览

python-3.x - 读写大文本文件python太慢

这段代码检查了一个 5.1GB 的大文本文件,并检查是否有出现少于 100 次的单词。然后将 5.1GB 重写为输出文本文件并用 unk 替换这些单词。主要问题是 output.txt 的创建需要很长时间。我怀疑方法 write_text() 通过打开数据集文件和输出文件的方式引起了问题。

这个脚本背后的目标:我有一个预建的词汇,我有一个文本。文本可能有我的词汇中没有的新词,所以我想将它们添加到我的词汇中。但我只想添加相关的新词(出现超过 100 次)。文本中出现少于 100 次的新词是一次性的,并不重要,所以我想将它们更改为“unk”。

0 投票
2 回答
155 浏览

pyspark - 在 pyspark 中预处理奇怪的数据

我正在处理一组分布非常奇怪且难以处理的气候数据。我决定与 pyspark 合作,因为它是大量数据,你知道,还有节省时间的想法。

数据格式为.ascii/.text/.dat,随便叫什么,分布如下:


日期 1
值 1 价值 2 价值 3 价值 4 价值 5 价值 6
价值 7 价值 8 价值 9 值 10 值 11 价值 12
. . . . . 值 101178
日期 2
值 1 价值 2 价值 3 价值 4 价值 5 价值 6
价值 7 价值 8 价值 9 值 10 值 11 价值 12
. . . . . 值 101178

也就是说,它是一个由分布在 6 列(16863 行)中的 101178 个数据的表组成的表。

如果解释不是很清楚,我附上一个链接到文件的一个小片段。(原始文件>50GB)

https://drive.google.com/file/d/1-aJRTWzpQ5lHyZgt-h7DuEY5GpYZRcUh/view?usp=sharing

我的想法是生成一个具有以下结构的矩阵:


日期 1 日期 2 日期 n
值 1 价值1.2 值1.n
价值 2 价值2.2 价值2.n
值 n 价值.2 价值网

我试图使问题尽可能清楚。正如我所说,我正在使用 pyspark,所以如果有人有任何解决方案可以使用这个工具进行数据处理,我将不胜感激。

非常感谢大家!

0 投票
1 回答
81 浏览

feature-selection - 数据预处理和特征工程

我一直在阅读数据预处理和特征工程,包括特征选择、特征重要性和特征构建。我的理解是特征工程师应用于数据预处理阶段。此外,有时在应用机器学习模型时会检查特征重要性,有时会在模式内部完成。

我的问题:特征工程总是在预处理阶段实施还是有时可以在后期阶段执行?

谢谢肖肖

0 投票
1 回答
44 浏览

machine-learning - 在使用 mlr3pipeline 编码和缩放数据后,无法通过 mlr3proba 训练数据集

当我在使用 mlr3pipeline 编码和缩放我的数据集后运行以下代码以在 mlr3proba 中训练模型时:

R代码显示错误如下:

我在另一个数据集中尝试了这个,但它显示了同样的问题。

但如果我不对数据集进行编码和缩放,一切正常。

此外,对于resample()功能,它是可以的(尽管编码和缩放):

那么问题出在哪里?

0 投票
1 回答
82 浏览

python - 重塑 Python 列表以匹配输入层(数据预处理 - Keras - LSTM - MoCap)

再会,

我正在尝试使用多个 excel 文件(运动捕捉数据)作为输入来训练 LSTM。每个 excel 文件代表一个身体动作,我想在训练集中和测试集中使用多个动作来训练网络。下面是单个 excel 文件的示例:

输入样本

至于输入形状,是(1, 2751, 93),输入维度分解:样本:1,时间步长:2751,特征:93

输入自变量 (x) 是人体关节及其位置,因变量 (y) 是每个动作的标签。

提前致谢!

编辑:添加了详细的代码

输出:

输出样本

因此,调用“df.head()”时获得的预期输出类似于此输出: 在此处输入图像描述

我想要做的是能够在需要时分别获取/打印每条记录(行)。在使用下面的示例代码加载单个数据帧时,我能够做到这一点,但在尝试将多个数据帧加载到列表中然后尝试使用循环为每个数据帧实现相同的步骤时失败。

编辑:问题澄清!

简单地说,我现在拥有的是以下内容:

  1. 存储在列表中的 8 个数据帧(列表形状 (8,))
  2. 每个数据框形状为 (300,93)

例如,我想要做的是将此列表调整为 (8, 300, 93),以便它匹配神经网络的输入层。

当我不断收到以下错误时:

如果可能的话,我要求澄清,因为对于我为什么会出现这个错误,我的结果有点模糊。

提前致谢!