问题标签 [data-preprocessing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
67 浏览

python - 训练时的良好准确性和损失与验证时的差准确性

我正在学习 pytorch,我已经创建了二进制分类算法。在训练完模型后,我的损失非常低,准确率也非常好。然而,在验证时,准确度正好是 50%。我想知道我是否错误地加载了样本或算法表现不佳。

在这里您可以找到Training loss 和 accuracy的图。

这是我的训练方法:

在这里,我从路径加载数据:

我没有附加模型架构,但是如果需要,我可以添加它。我认为我的训练方法是正确的,但我不确定训练/验证数据处理。

编辑:

网络参数如下:

激活函数是sigmoid

网络架构

0 投票
1 回答
106 浏览

python - logits 和 label 必须是可广播的:数据增强层使 logits 和标签不匹配

我正在尝试将所有数据增强预处理移到我的模型内部,因此,我创建了一个预处理模型并将其合并到我的 Resnet50 中。

问题是,我的tf.data管道batch_size将图像输入到模型中,当输入到预处理管道时会生成:batch_size * 54图像(每张图像 54 个样本),因此,标签信息与生成的图像无关,我得到错误(batch_size = 16 ):

关于我应该怎么做才能在 GPU 上保持运行数据增强并将标签与相应生成的图像相关联的任何猜测?

辅助代码:

将预处理模型合并到 ResNet50 中:

tf.data 管道

0 投票
0 回答
37 浏览

machine-learning - Fastai2 如何为 DataBlock 编写 get_items() 方法

我正在努力编写正确的方法:get_items()for DataBlock. 这是我正在关注的教程。

由于我的工作性质,我无法提供完整的数据集,但它看起来像这样: 在此处输入图像描述

这是错误消息: 在此处输入图像描述

0 投票
3 回答
372 浏览

pandas - 从熊猫的数据框中仅提取单独列表中的对象类型列

我是 Python 的初学者。我想将所有以 DType 作为对象的列名提取到一个单独的列表中,以作为数据处理的一部分进行编码。我试过的是下面的代码,但得到一个错误

----> 1 for i in dataset.columns[dataset.dtype == 'object'] 中的 AttributeError Traceback(最近一次调用):2 print(i)

D:\Anaconda\InstallationFolder\lib\site-packages\pandas\core\generic.py in getattr (self, name) 5137 if self._info_axis._can_hold_identifiers_and_holds_name(name): 5138 return self[name] -> 5139 return object。getattribute (self, name) 5140 5141 def setattr (self, name: str, value) -> 无:

AttributeError: 'DataFrame' 对象没有属性 'dtype' dataset.info() 给出以下内容:

请帮我解决这个错误。我希望在单独的列表中具有对象数据类型的列名。

0 投票
0 回答
25 浏览

python - 如何按标签分组并使用python创建新数据

我有2000个这样的数据。我想根据标签统计数据量,然后分成15份。在每个部分中,我想根据每个特征列计算最大值、最小值等。因此,如果一开始我有 6 个特征和 1 个标签,那么最后我将有 12 个特征(假设每个特征都有最大值和最小值)和 1 个标签,然后将其保存到一个新文件中。我想在 python 中创建它,但我不知道如何开始。是否有我可以学习的资源或可以遵循的步骤?任何帮助将不胜感激。先感谢您

在此处输入图像描述

0 投票
0 回答
93 浏览

python - 我有数据泄露吗?

我正在努力尝试提前一天预测 EUR/USD 的收盘价,并且我已经创建了一个基本模型来开始使用管道。但是,结果好得令人难以置信,我确定我在某处有数据泄漏,但我找不到它。

以下是运行模型和创建管道的代码:

代码在SeriesToSupervised这里:

RemoveCurrentFeatures只需遍历此列表: ["Open","High","Low","Change %","Price"] 并删除这些列。

数据集以上面列表中的列加上“日期”开始。在数据准备之后,数据框具有“价格(t-n_in)”形式的列,其中 n_in 是滞后数据的天数。

任何帮助将不胜感激,我已经坚持了一段时间,我确定这里有问题。

编辑:这是我进行测试和训练拆分的方式:

0 投票
1 回答
62 浏览

python - 交叉验证和测试数据的拟合和转换错误

我需要这里的代码帮助。我正在尝试拟合和转换训练数据,然后转换交叉验证和测试数据。但是当我这样做时,我得到的错误是 - ValueError: X has 24155 features,但 Normalizer 期望 49041 features 作为输入。

有人可以帮我解决这个问题。

我的代码片段-

0 投票
2 回答
87 浏览

python - 如何修复 AIS COG 值

我目前正在使用 AIS 数据集,其中包含字段 MMSI、时间戳、LAT、LON、SOG、COG 等。在这里,COG 是在地面上的路线,支持的 COG 值范围为 0 到 360 度。但是数据集在某些行中包含负值。我想知道是否有任何公式或规则可以将其转换为 0-360。由于我正在使用 python,如果有人知道如何在 Python 中进行操作,将不胜感激,但任何公式都可以工作。为方便起见,我附上了示例数据集的屏幕截图。样本 AIS 数据集

0 投票
1 回答
30 浏览

pandas - 目标 (1 &0) 列未从 str 转换为 int 类型

我正在尝试做一个逻辑回归项目。为了绘制图表,我使用下面的代码将 0 转换为“不寻找改变”,将 1 转换为“寻找工作改变”。

但是在探索性数据分析之后,我想将“不寻找工作变更”转换为 0,将“正在寻找工作变更”转换为 1。我再次尝试了上面的代码,如下所示:

但我在目标值列中得到 NaN。这是数据集的快照: 在此处输入图像描述

请帮我解决。我是 Python 新手,正在努力学习它。

0 投票
0 回答
18 浏览

encoding - 分类变量的未知数据中的概率编码,其中目标是我们必须预测的?

我正在尝试使用 SVC 对看不见的测试数据预测测试数据的结果,即目标变量是我必须预测的。现在,对于作为目标变量的训练数据,我对训练数据进行了概率编码,因为 city 列中的城市数量为 100+,所以我选择了概率编码,因为 one-hot 编码会增加数据的维度. 现在我被困在如何对不存在目标变量的测试数据中的城市进行编码,我应该使用为训练数据中的城市计算的相同概率还是有其他方法可以做到这一点?这是训练数据中城市的概率编码快照:

在此处输入图像描述