问题标签 [feature-engineering]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1083 浏览

python - RandomForest 是否需要标准化?

1)随机森林是否需要标准化?

2)应该对所有特征进行归一化还是仅对数字特征进行归一化?

3)在拆分为训练数据和测试数据之前或之后进行归一化是否重要?

4)我是否需要对将被分类的未来对象的特征进行预处理?(接受模型后,不是在测试期间)

0 投票
0 回答
31 浏览

nlp - 自然语言处理中特征工程的最佳方法?

我正在尝试对大量文档进行聚类,并希望随后根据每个聚类中最常见的共享关键字或关键短语来解释每个聚类的特征。为了使聚类可行,我将使用降维方法,例如 LSA (SVD) 或 doc2vec。

我可以看到几个可能的降维特征矩阵的路径:

  1. 名词短语 (NPs)、TF-IDF、LSA (SVD) 的 POS 标记、分块(浅解析)

  2. n-gram、TF-IDF、LSA (SVD)

  3. doc2vec 一路。

这些以及其他方法的优点和缺点是什么?最终最好的方法是什么?

0 投票
1 回答
1766 浏览

machine-learning - 分类变量的降维

我有一个仅包含 3 列的制造数据集。

我试图将错误(1 或 0)预测为分类问题。但是有 50 个唯一的工作站和 130 个唯一的产品 ID,所以当我将它们转换为虚拟变量时,数据框变得巨大。

所以,我的问题是,降维技术是否适合虚拟变量?实际上,我只有 2 个变量(工作站和产品)听起来不需要做任何减少。或者任何特征重要性技术都适合?如果它表明 5 个不同的工作站无用,这是什么意思?

提前致谢

0 投票
2 回答
195 浏览

machine-learning - 标准化测试集但范围更高

我正在规范化和重新调整我的训练集:

这很好用。我以完全相同的方式转换测试集,使用训练集中的平均值、标准差、最小值、最大值。如果测试集中的平均值和最大值与训练集相同,则此方法可以正常工作。但是,如果测试集中未转换特征的范围不同,那么我将在重新缩放后得到超出 -1、1 的值。如何解决这个问题?

0 投票
1 回答
42 浏览

python - 使用字符串函数 arg 命名 pandas DF 中的新功能

我正在尝试编写一个 python 函数,它允许我向 pandas df 添加功能以进行机器学习。我想我误解了如何在 python 函数中使用字符串。

该函数查看 df 的一行,检查行标识符是否在未来几个月(以下行数)具有相同的标识符。如果是这样,它将未来行的“开始”特征的值添加到新特征列,否则将初始行的“结束”。这是一个定制的班次功能。

一旦我添加了这个功能,我想再添加一列 1 或 0 作为 df 的新功能,并带有适当的列标签。这将被标记为“feat_so_many_months_in_future_is_higher_or_lower”。

问题是我什至无法到达阈值部分附近的第二个二进制文件。我在添加第一个具有适当名称的新功能时遇到问题。

我的想法是调用函数如下:

当我运行代码时,这一行似乎是问题所在:

...因为它将所有新的特征列值添加为列名!

非常感谢任何指针!

0 投票
1 回答
28 浏览

python - 如何创建一个功能来显示是否有人发表了评论?

我正在使用来自 kaggle 的这个数据集

有一栏显示哪些受访者发表了评论,哪些受访者没有发表评论。未发表评论的受访者具有 NaN 值。我想创建另一个变量,如果有人发表评论,则显示 1,如果有人没有发表评论,则显示 0。这是我使用的代码:

但是,我收到以下错误:

return外功能。

任何帮助将非常感激。

0 投票
1 回答
48 浏览

python - python中营销分析中的特征工程

用 Python 进行营销分析的特征工程

我有一个带有变量的数据offer_id(例如 1,2,5,10....)和product_id(例如 6178,4184,5124,...)。一个offer_id可以适用于多个product_id

我如何为每个 product_id 创建一个单独的变量,这样如果一个特定offer_id的变量适用于它,那么product_id变量得到一个值 1,否则它得到一个值 0。

每个 product_id 的单独变量的值必须为 0 或 1。值 0 表示offer_id不适用,值 1 表示相应offer_id适用。

0 投票
0 回答
37 浏览

python-3.x - 如何从包含多个客户条目的表中找到每个唯一客户最常出现的类别?

我有一个包含 30k 唯一用户的数据集,每个客户都有多个交易。我汇总了每个用户一条记录的数据集,其中包含平均交易金额、上次访问日期等汇总信息。我有很多分类变量。我需要找到每个客户最常出现的类别并将其存储在聚合数据集中。如何在 Python 中做到这一点?

这是原始数据集

这是聚合数据集

同一用户只有一条记录。我需要在分类特征 PRODUCT_DESC 中检查该用户最常出现的类别。

0 投票
3 回答
915 浏览

python-3.x - 合并 pandas 中的列以创建新列

您好,我正在研究 pandas 数据框,我想创建一个组合多个列并对其应用条件的列,我正在寻找一种聪明的方法来做到这一点。

假设数据框看起来像

我的输出列应如下所示

我当然可以使用下面的代码来实现这一点,但是我必须为每一列都这样做。

我想知道如果我有非常多的列,是否有一种方法可以在不应用于每一列的情况下实现这一点。

提前致谢 !!

0 投票
1 回答
28 浏览

python - 这些 Pandas 代码是怎么说的?,请用正常的术语解释一下?

我想用特征工程术语来理解这段代码