问题标签 [data-preprocessing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - MinMaxScaler 没有正确缩放
我想对我的数据集中的特征进行标准化步骤,我正在使用 sklearn MinMaxScaler 我希望结果在 (0,1) 的范围内,但它会产生更大和不同的值。
这就是我的数据的样子
这是应用代码后的数据
python - Tensorflow .batch 没有正确分离张量
我有一个形状数组 (1, 6354944)
并将它们转换为张量切片
但是当我批处理它们时
它返回
当它的形状应该是
r - 是否有一个 R 函数来预处理整个 CSV 文件以进行情绪分析?
我是 R 中情感分析的新手,我使用教科书“Text Mining with R: A Tidy Approach”作为预处理文本的主要参考,他们使用以下代码:
问题是,我有一个 344 行 14 列的 CSV 数据集,我想计算 6 列中包含的文本的情绪:
有没有办法(单独)预处理每个观察中包含的数据而无需应用上述代码?
提前感谢您的帮助和建议!
python-3.x - 将单列的“列属性”合并到单独的列中,以降低该单列的虚拟变量的数量
例如,如果一列有 14 个不同的 [Unique Values]value_counts(),并且它们具有共同点,在我们的示例中 [当我们将 'Loan.Purpose' 与 'Interest.Rate' 列分组时,并计算每个 [Unique Values]value_counts() based on Loan.Purpose mean() values],我们得到某些 value_counts 的某个共同平均费率,例如:-('car','educational','major_purchase') 属性的平均值 = 11.0 ,现在我想合并上面提到的 ('car','educational','major_purchase') [Unique Values]value_counts(),在 column_name "LP_cem" 下,因为它们具有相同的意思,同样我想对其他价值计数(),
这样我就可以将虚拟变量的数量从 14 个减少到 4 个。
基本上,我想根据它们的 mean() 将 3/4 列下的 14 个不同 value_counts() 合并,然后从这些 3/4 列中创建虚拟对象
就像下面给出的
raw_data['Loan.Purpose'].value_counts()
我已经Loan.Purpose
根据平均值对数据进行了合并Interest.Rate
现在我想将具有相同平均值的值组合在一起,我什至尝试了代码,但它给出了一个错误
google-cloud-dataprep - 如何将诸如rollingaverage之类的窗口函数应用于google dataprep中的所有列?
我有带有时间戳和多个传感器变量的数据集。 dataset dimension = (50000,100).
我可以在 dataprep 上为单个列应用函数以获取滚动平均值:ROLLINGAVERAGE("Column_name", 21, 0).
有没有办法将相同的函数应用于 gcp dataprep 中的所有列。
python-3.x - 为什么我通过在我的代码中以不同的顺序放置“年”和“年”得到不同的输出
我所做的只是将“年”和“年”的位置从第一行切换到第二行,反之亦然。
这是原始列
第一个例子(第一行的“年”,第二行的“年”)
输出
第二个例子(第一行的'year',第二行的'years')
输出
还有一件事是,当我用'year'注释掉我的第二行时,它给我的输出与第一个示例相同。当我用'years'注释掉我的第二行时,它给我的输出与第二个示例相同。
第三个例子
输出
scikit-learn - GridSearchCV、数据泄漏和生产过程清晰度
我已经阅读了一些关于将缩放与交叉折叠验证和超参数调整集成而不会冒数据泄漏风险的文章。我发现的最合理的解决方案(据我所知)涉及创建一个包含标量和 GridSeachCV 的管道,以便在您想要进行网格搜索和交叉折叠验证时使用。我还读到,即使使用交叉折叠验证,在开始时创建一个保留测试集以在超参数调整后对模型进行额外的最终评估也是有用的。把它们放在一起看起来像这样:
假设我的理解和上述过程是正确的,我的问题是下一步是什么?
我的猜测是我们:
- 让 X_train 适合我们的缩放器
- 使用我们的缩放器转换 X_train 和 X_test
- 使用 X_train 和我们从网格搜索过程中新发现的最佳参数训练一个新模型
- 使用我们的第一个保持测试集测试新模型。
据推测,因为 Gridsearch 基于数据的各个切片评估了具有缩放比例的模型,所以缩放我们的最终、整个训练和测试数据的值的差异应该没问题。
最后,当需要通过我们的生产模型处理全新的数据点时,这些数据点是否需要根据我们原始 X_train 的标量拟合进行转换?
感谢您的任何帮助。我希望我没有完全误解这个过程的基本方面。
奖励问题:我从许多来源中看到了类似上面的示例代码。管道如何知道将标量拟合到交叉折叠的训练数据,然后转换训练和测试数据?通常我们必须定义该过程:
python - 根据值合并列名以创建另一列
我有一个包含各种电影类型以及电影是否属于该类型的电影数据集。例如
如果电影属于那种类型,我想获得一个新列,其中电影类型名称用空格或逗号分隔
请分享 R 或 Python 中的代码。谢谢您的帮助。
python - 如何将包含字符串对象的熊猫数据框列转换为 numpy 数组?
请我正在做一个项目,我必须做一些数据预处理我有一个看起来像这样的数据框(这只是一个简化的例子
我想将它转换为形状 (2,2,2,1) 的 np 数组,像素列的类型是对象是否有任何解决方案可以在没有循环的情况下做到这一点,因为我有一个带有大图像的 28k 行数据框?我试过循环,但在我的机器上执行需要很长时间