问题标签 [feature-engineering]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
502 浏览

tensorflow - numeric_column shape=2 和两个数字列之间的区别

我最初拥有的与时间相关的数据格式为整数:

1)第一个选项是将时间描述为 numeric_column:

2)另一种选择是将时间分成小时和分钟分成两个单独的特征列:

3)第三种选择是维护一个特征列,但是让tensorflow知道它可以在拆分为小时和分钟时进行描述:

这种拆分是否有意义,选项 2) 和 3) 之间有什么区别?

作为附加问题,我遇到了如何从 csv 解码矢量数据的问题:

如何让tensorflow知道“14,2”、“15,1”应该被认为是张量shape=2?

编辑1:

我找到了一种从 csv 解码类似“数组”的数据的解决方案。在训练和评估函数中,我添加.map了对某些列的数据进行解码的步骤:

其中 parse_csv 实现为:

我认为两列和一列之间的区别在于shape=2“权重”的分布方式。

0 投票
1 回答
3183 浏览

python - KMeans 聚类不平衡数据

我有一组包含 50 个特征(c1、c2、c3 ...)的数据,行数超过 80k。

每行包含标准化的数值(范围为 0-1)。它实际上是一个归一化的虚拟变量,其中一些行只有很少的特征,3-4(即如果没有值则分配为 0)。大多数行有大约 10-20 个特征。

我使用 KMeans 对数据进行聚类,结果总是产生具有大量成员的聚类。经过分析,我注意到少于 4 个特征的行往往会聚集在一起,这不是我想要的。

无论如何平衡集群?

0 投票
1 回答
352 浏览

deep-learning - 使用深度学习混合文本和数字特征进行文本分类

我有一个关于将文本分类为几个类别(主题)的问题。除了文本之外,我还有一些我认为可能有用的数字特征(这些特征中也有缺失值)。但最重要的信息当然是在文本中呈现的。因此,我认为深度学习方法(使用通用管道:嵌入层 + CNN 或带有 dropout + Dense 层的 RNN)将是最佳选择。将仅适用于文本输入的当前模型与数字特征混合的最佳实践是什么?在这个领域是否有任何技巧、最佳常见做法、最先进的研究?有没有关于这个主题的论文/实验(可能在 GitHub 上)?

如果我们能概括地思考这个问题,那就太好了,但为了了解我们可以解决什么样的问题,我将举一个具体的例子。假设我们有来自用户的评论,他们描述了他们在接受服务或购买商品时遇到的问题。目标特征是多标签:与用户投诉相关联的一组标签(类别/主题)(我们应该在数百个可能的主题中选择相关的)。

然后除了用户的评论本身(这是最重要的特征)之外,我们可能还想考虑一些数字特征,如价格、等待时间、评级(客户满意度得分)等。这可能对预测一些有用的特定类别。

这个想法是以某种方式在深度学习模型中混合所有这些特征来生成最终模型。不确定我是否知道如何做到这一点的最佳方法。这类问题的最佳实践/有用的技巧是什么?

0 投票
1 回答
197 浏览

python - Featuretools 处理多个连接键

特征工具中如何表示具有多个连接键的一对多关系?是否有一些集成方法 - 或者是否应该手动将连接键连接到单个列中?

0 投票
1 回答
841 浏览

python - Featuretools 分类处理

Featuretools 提供了处理分类变量的集成功能

然而,这些应该是stringspandas.Category类型以实现与 Featuretools 的最佳兼容性?

编辑

此外,是否需要手动指定所有列,如 https://github.com/Featuretools/predict-appointment-noshow/blob/master/Tutorial.ipynb或者它们是否会从拟合熊猫数据类型中自动推断出来

0 投票
1 回答
772 浏览

python - Featuretools 与非唯一连接键的关系

假设我有两张表,一张是关于带有字段的客户的元数据,另一张是customer_id从网站点击流事件中记录的带有字段的事件表customer_iddate. 显然,第二个表可能有几个非唯一事件(不幸的是,日期实际上只是一个日期而不是时间戳)。

尝试创建https://docs.featuretools.com/loading_data/using_entitysets.html时失败:

我怎样才能让它独一无二或让它发挥作用?

0 投票
1 回答
662 浏览

python - 在 Featuretools 中使用多个训练窗口计算相同的特征

Featuretools 已经支持处理多个截止时间https://docs.featuretools.com/automated_feature_engineering/handling_time.html

但是正如您看到的,一个 ID 的多个时间点会生成一个 pandas 多索引。我如何(也许通过枢轴?)我可以得到所有 MIN/MAX/... 生成的列,前缀为 last_x_days_MIN/MAX/... 所以每个截止窗口都获得额外的功能?

编辑所需的输出格式

0 投票
1 回答
378 浏览

training-data - 如何使用 ft.dfs 结果加入测试集?

我知道 featuretools 有 ft.calculate_feature_matrix 方法,但它计算数据使用测试。我需要在获得特征时使用训练数据,并加入测试数据,而不是在测试数据上使用相同的特征。例如:训练数据:

dfs后,我得到:</p>

我想在测试集上这样:</p>

不是

我怎样才能实现它,谢谢。</p>

0 投票
1 回答
1016 浏览

python - FeatureTools:处理多对多关系

我有一个包含多列的购买数据框,包括以下三列:

一个工作人员可以有多个与之关联的帐户,一个帐户可以有多个工作人员。

如果我创建 WORKER 和 ACCOUNT 实体并添加关系,则会出现错误:

到目前为止,这是我的代码:

如何分离实体以包含多对多关系?

0 投票
0 回答
426 浏览

python - 使用 featuretools 指定有趣的变量不起作用

我目前正在使用我自己的数据处理功能工具文档。到目前为止一切正常,但我一直在添加有趣的变量。出于某种原因,我无法让它工作,我不知道为什么。文档中的示例工作得很好。

创建实体集后,我试图获取特定产品的功能Classic Cars

我期望的是一个计算包括经典汽车在内的交易数量的功能。不幸的是,它没有这样做。它也不适用于我尝试过的任何其他变量或值。

正如您在此处看到的,作业确实有效。

Classic Cars 是变量 PRODUCTLINE 的有效值:

不知道我做错了什么,任何帮助将不胜感激!

如果您想复制它,这里是数据和代码:https ://drive.google.com/open?id=1NOeudbCkeZ66nSOZrhhBdd1jcAa1LDco