问题标签 [featuretools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
841 浏览

python - Featuretools 分类处理

Featuretools 提供了处理分类变量的集成功能

然而,这些应该是stringspandas.Category类型以实现与 Featuretools 的最佳兼容性?

编辑

此外,是否需要手动指定所有列,如 https://github.com/Featuretools/predict-appointment-noshow/blob/master/Tutorial.ipynb或者它们是否会从拟合熊猫数据类型中自动推断出来

0 投票
1 回答
772 浏览

python - Featuretools 与非唯一连接键的关系

假设我有两张表,一张是关于带有字段的客户的元数据,另一张是customer_id从网站点击流事件中记录的带有字段的事件表customer_iddate. 显然,第二个表可能有几个非唯一事件(不幸的是,日期实际上只是一个日期而不是时间戳)。

尝试创建https://docs.featuretools.com/loading_data/using_entitysets.html时失败:

我怎样才能让它独一无二或让它发挥作用?

0 投票
1 回答
662 浏览

python - 在 Featuretools 中使用多个训练窗口计算相同的特征

Featuretools 已经支持处理多个截止时间https://docs.featuretools.com/automated_feature_engineering/handling_time.html

但是正如您看到的,一个 ID 的多个时间点会生成一个 pandas 多索引。我如何(也许通过枢轴?)我可以得到所有 MIN/MAX/... 生成的列,前缀为 last_x_days_MIN/MAX/... 所以每个截止窗口都获得额外的功能?

编辑所需的输出格式

0 投票
1 回答
78 浏览

python - 向实体添加变量 - featuretools

我正在尝试向实体添加一个新变量。

我正在尝试添加一个变量,如下所示:

但是我收到了这个错误:

如果我将类型参数指定为 int,

我得到一个不同的错误:

是否有另一种方法可以向实体添加新变量?

谢谢,

0 投票
1 回答
305 浏览

pandas - 无法添加关系,因为 dtypes 在 Featuretools 中不匹配

尝试在 Featuretools 中添加两个实体之间的关系时出现以下错误

请注意,系列不一定相同cat.Codes

0 投票
1 回答
378 浏览

training-data - 如何使用 ft.dfs 结果加入测试集?

我知道 featuretools 有 ft.calculate_feature_matrix 方法,但它计算数据使用测试。我需要在获得特征时使用训练数据,并加入测试数据,而不是在测试数据上使用相同的特征。例如:训练数据:

dfs后,我得到:</p>

我想在测试集上这样:</p>

不是

我怎样才能实现它,谢谢。</p>

0 投票
1 回答
1016 浏览

python - FeatureTools:处理多对多关系

我有一个包含多列的购买数据框,包括以下三列:

一个工作人员可以有多个与之关联的帐户,一个帐户可以有多个工作人员。

如果我创建 WORKER 和 ACCOUNT 实体并添加关系,则会出现错误:

到目前为止,这是我的代码:

如何分离实体以包含多对多关系?

0 投票
0 回答
426 浏览

python - 使用 featuretools 指定有趣的变量不起作用

我目前正在使用我自己的数据处理功能工具文档。到目前为止一切正常,但我一直在添加有趣的变量。出于某种原因,我无法让它工作,我不知道为什么。文档中的示例工作得很好。

创建实体集后,我试图获取特定产品的功能Classic Cars

我期望的是一个计算包括经典汽车在内的交易数量的功能。不幸的是,它没有这样做。它也不适用于我尝试过的任何其他变量或值。

正如您在此处看到的,作业确实有效。

Classic Cars 是变量 PRODUCTLINE 的有效值:

不知道我做错了什么,任何帮助将不胜感激!

如果您想复制它,这里是数据和代码:https ://drive.google.com/open?id=1NOeudbCkeZ66nSOZrhhBdd1jcAa1LDco

0 投票
1 回答
35 浏览

feature-engineering - 使用 Deep Feature Synthesis 时如何记录 FeatureTools 派生的常量

当 FeatureTools 执行深度特征合成时,有没有办法记录它导出的常量值?

例如,我有很多这样的行: | loan_id | loan_term | |---------|:---------:| | a | 12 | | ... | ... | | z | 18 |

DeepFeatureSynthesis 工程师features包括<Feature: loan_term.COUNT(loan)> | loan | loan_term | loan_term.COUNT(loan) | |---------|:---------:|:---------------------:| | a | 12 | 2000 | | ... | ... | ... | | z | 18 | 800 |

我希望能够重新设计单个实体的功能,以便单个贷款期限12具有 a loan_term.COUNT(loan)of2000而无需重新计算所有loan_terms。*

我可以通过将实体与训练数据重新组合来做到这一点 ft.calculate_feature_matrix(features, my_entity_set_with_one_new_entity_added),但这效率低下且速度慢。

有没有办法指示 FeatureTools 记录在深度特征合成过程中发现的常量,并将它们用于未来的特征生成?


*现在将单个新贷款实体包括在计算中对我来说并不重要。所以12不必成为2001

0 投票
1 回答
101 浏览

featuretools - Featuretools 可以从一组特征中选择一组特征吗?

我有一个包含 100 多个输入的数据集,6 个输入可以组合成一个集合,它们是从同一个传感器收集的。我同样试图找出哪个传感器的数据是最好的功能。Featuretools 可以做特征工程并从特征集中找到最好的特征集吗?