问题标签 [data-preprocessing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
29 浏览

python - 如何将调查中以不同方式输入的响应分类分组到常见组中,以便更轻松地处理数据?

我正在通过 .csv 文件对调查中收到的数据进行预处理。此列包含学生所学习的课程名称。由于这是由他们输入的,因此相同的课程名称有不同的拼写方式。例如:课程名称“BALLB”已被输入,如“Ballb”或“bal.lb”等。我尝试了最基本的蛮力方法,我能想到我在 if 语句中采用所有选项的位置和用通用的课程拼写替换它们,但我仍然得到大量的值,该程序无法将它们组合到其中一个语句中。有没有更快的方法将它们组合在一起?

这就是我调用函数来获取每门课程的价值计数的地方:

这就是数据框的样子

我要分组的列称为“课程名称”。

0 投票
0 回答
12 浏览

time-series - 如何将时间序列数据中的经度和纬度从每日转换为每周?

我有这样的时间序列数据:

日期 经度 纬度
2010 年 1 月 1 日 -5.42766 107.5784
2010 年 2 月 1 日 -6.42728 104.5245
2010 年 7 月 1 日 -7.42702 105.5816
2010 年 14 月 1 日 -4.42728 99.57834
17/01/2010 -6.41523 103.5562
... ... ...
2013 年 12 月 31 日 -4.42728 99.57834

这是位置数据(经度和纬度)。我想将数据从每天更改为每周,如下所示:

星期 经度 纬度
第 1 周 ... ...
第 2 周 ... ...
第 3 周 ... ...
第 4 周 ... ...

如何合并数据?因为计算数据的平均值没有意义,因为它是位置数据。

0 投票
0 回答
109 浏览

machine-learning - 使用“mlr3pipelines”预处理数据后,“mlr3filters”的变量重要性在“mlr3proba”中不起作用

mlr3proba使用 R 的和mlr3pipelines和包运行下面的代码以在预处理数据集上mlr3filters实现rpart算法并执行“变量重要性”,显示错误:

但是当我运行上面的代码时,没有预处理,它可以工作:

那么,有什么问题呢?

0 投票
0 回答
95 浏览

python - 如何使用在归一化输入上训练的模型对看不见的输入进行归一化以进行预测?

我正在解决一个问题,我使用 3 个功能(3 列)使用 Elastic Net Regression 预测价格。如果没有标准化或缩放,即使只有 20 行训练数据,我得到的结果还不错,但我通过标准化或缩放阅读过,你可以获得更好的结果。我已经看到了很多这样做的方法,并且有点令人困惑。标准化输入的最佳方法是什么?如何标准化一组看不见的数据?以下是我到目前为止的一些代码。

设置培训和验证

在 Elastic Net Regression 上拟合数据

为看不见的数据定义预测函数

我会像这样对看不见的输入做出预测:

第一列可能需要注意,最小值为 2,最大值为 6。第二列的最小值为 509,最大值为 2688。第三列的最小值为 17,最大值为 212。输出列的范围从 1,470,000 到4,200,000。

我读过我只需要规范化输入(训练和验证)而不是输出。我该如何解决这个问题以及如何规范化看不见的输入以进行真实世界的预测?

0 投票
0 回答
35 浏览

data-science - 我们是否需要缩小数据集中的日期特征?

为了使所有特征的所有值具有相似的比例,我们正确地执行特征缩放。我的问题是,如果我们有一个包含所有日期值的特征,我们需要使用这个日期特征来训练我们的模型。我们如何处理这个?我们是否需要缩放标准化或标准化日期功能?

0 投票
1 回答
88 浏览

python - 如何使用 Python 处理大数据中的空值

我有大约 1500 列(特征)和 900 行数据的数据。我正在使用它来删除平均值小于 80% 的值

但是,我剩余的数据集仍然包含包含大约 6000 个 Null 值的列。删除空值的最佳方法是什么?请指导。在如此大量的空值中估算值是否有用?而且我必须以什么阈值删除空值?哪个最好?例如,我有 100 250 1500 2000 3500 4000 6000 个缺失值的特征。需要你的指导,请帮忙

0 投票
1 回答
247 浏览

python - 如何在python中将名义数据转换为数字?

我正在使用二进制分类数据集。我想将名义数据转换为数字。我该怎么办?

代码:

所需的输出:{'no':0 'yes':1}

0 投票
1 回答
115 浏览

python - 使用文件列表构建 tf.data 管道,即 pickle 数据框

我无法tf.data为腌制数据帧列表构建管道(在 python 3.7.7 和 Windows 10 上使用 Tensorflow 2.1.0)。要开始使用以下代码:

在最后一行,它在 内引发以下错误read_pickles

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 0: invalid start byte

我尝试使用filename.decode('utf-8')withinread_pickles但这也会导致另一个错误: AttributeError: 'tensorflow.python.framework.ops.EagerTensor' object has no attribute 'decode'

当我搜索它时,我发现了这些,但它们对这个问题没有帮助:

完整追溯:

感谢你的帮助!蒂亚!

0 投票
1 回答
138 浏览

r - 如何用文本替换表情符号并将它们视为单个单词?

我必须使用 R 基于包含表情符号的文本片段进行主题建模。使用replace_emoji()andreplace_emoticon函数让我分析它们,但结果存在问题。

红心表情符号被翻译为“红心ufef”。然后在分析过程中分别处理这些词并损害结果。

像“heart”这样的术语可以有非常不同的含义,就像“red heart ufef”和“broken heart”一样。该功能replace_emoji_identifier()也无济于事,因为标识符使分析变得困难。

通过使用可重现的虚拟数据集dput()(包括步骤force to lowercase

当前编码(data_orig是几个文件的列表):

期望的输出:

有任何想法吗?小写也可以。最好的祝福。注意安全。保持健康。

0 投票
0 回答
17 浏览

python-3.x - 提取.doc文件文本数据

我有一份带有 .Doc 扩展名的简历。如何从该简历中提取文本数据。

得到的输出是 (None, '[WinError 2] The system cannot find the file specified')