问题标签 [featuretools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
108 浏览

featuretools - 运行深度特征合成时只包括某些特征?

例如,我的一个实体有两组 ID。一个是连续的(这显然是创建 EntitySet 所必需的),另一个是在与我的另一个表合并时用作外键。

这导致特征工具包括要聚合的特征集中的 ID。SUM(ID) 不是我感兴趣的功能。

有没有办法在运行深度特征合成时包含某些特征?

0 投票
1 回答
87 浏览

amazon-s3 - 功能工具可以将功能列表直接保存到s3吗?

我正在尝试将从深度特征合成返回的特征列表直接保存到 S3。如果在本地持久化,我可以使用“ft.save_features(features,pathtofile)”。反正有没有将 S3 url 传递给这个方法?

0 投票
1 回答
185 浏览

python - 无法在具有其他数值和分类变量的数据集中创建基于时间的特征

我希望功能工具根据我在实体集中声明的时间索引和截止时间创建功能。

我有一个包含时间变量以及数值和分类变量的数据集。有一个ITEMID 列,每个ITEMID 有2 到12 行数据。

使用开始日期和交易日期等列,各种数字和分类列。给定 ITEMID 的所有行的开始日期相同,而每行的交易日期不同。

这是实体集的代码

0 投票
1 回答
145 浏览

r - 运行 featuretoolsR 时出现词法错误

为了测试 featuretools 的工作,我通过 RStudio 安装了 featuretoolsR,并在 Python 中安装了 numpy 和 featuretools。

但是,在尝试创建实体时出现以下错误

0 投票
1 回答
90 浏览

python-3.x - Featuretools - LookupError:在数据框中找不到时间索引

我有一个输入数据框,我根据属性将其拆分为 3 个实体。当我尝试使用功能工具生成功能时,出现上述错误

我根据数据集上的可用信息将其分为 3 个实体:

我收到错误“LookupError:在数据框中找不到时间索引

有人可以帮助解释为什么会出现错误,因为 featuretools 文档没有提到任何需要指定时间索引?

0 投票
1 回答
97 浏览

python - 无法将功能工具部署为缺少 EntitySet.read_pickle() 方法

参考部署页面上提到的 featuretools 'v0.7.0'的部署方法

我使用方法保存了我的feature_defsft.save_features ,但是在使用成功加载 defs 后,ft.load_features我发现下一个依赖项来计算特征矩阵即。ft.calculate_feature_matrix是实体集!

我发现没有办法坚持EntitySet。因为我只能找到EntitySet.to_pickle()方法,但没有从泡菜中加载!

我有一个新的数据框,我想在其上附加我的功能,但没有父数据框或实体集,这是不可能的。

如果我错过了什么,请告知。

ft.save_features(features_defs_branches, 'branches.ft')

我有另一个客户要计算,我该怎么做?

即。

0 投票
0 回答
66 浏览

python - 类别频率的自定义特征工具原语

我有一个数据框,想为类别的频率创建一个自定义功能。如何使用 featuretools 自定义原语来实现这一点?

在 pandas 中,这如下所示:

这似乎是这里问题的一个更普遍的例子,并且可能对 ft 新手有所帮助。


注意:这专门针对 featuretools 库和自定义原语,而不是关于计算数据框中的类别频率。

0 投票
0 回答
380 浏览

python-3.x - 如何加快 featuretools dfs 的执行速度?

我正在运行 featuretools 来创建新功能,并从现有数据框中创建了实体集。

用于训练的数据框有约 233K 条记录和 81 列,分为 3 个实体并作为 es.dfs 命令的输入参数提供,该命令在训练数据集上需要大约 2.5 小时的执行时间,在测试数据集上需要 1.5 小时。测试数据集大小约为 120K,有 80 列。

如何在减少执行时间方面提高性能?我在 Kaggle Kernel 上运行代码,在仅运行 es.dfs 命令的会话可用的 9 个小时中,我损失了近 4 个多小时。

我已经在 featuretools 网站上引用了关于并行处理和加速代码的代码,但是当从数据框创建实体时如何去做,或者我可能不是很清楚地理解它时,它不是很清楚。

执行时间减少了 1/4 倍。

0 投票
0 回答
103 浏览

python - 使用特征工具计算未来特征

我正在尝试使用特征工具来生成特征矩阵来训练过去的数据并预测一些未来的数据。所以这是我的设置:

我生成一个特征矩阵如下:

然而,这给了我两行(时间是 4,在 curoff 之后),其中所有值都是 NAN。期望的行为也是填充这些行的值(但仅基于过去的数据计算聚合)。使用功能工具可以做到这一点吗?

0 投票
0 回答
71 浏览

featuretools - 无法在功能工具中建立关系

我在使用这个时遇到了一些问题:我的几个实体有“id”和“time”,当然还有其他一些记录。

由于它每天记录每个id的活动数据,所以我的id在一张表中不是唯一的。我想通过 id 建立关系,但它似乎不起作用。我想知道 featuretools 是否支持这样的功能。

它是否parent_variablechild_variable接受具有唯一值的列?

或者我可以使用单个实体来创建agg_primitives下面官方文档中提到的一些参数吗?</p>

我第一次使用这个,我很困惑。