问题标签 [featuretools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
456 浏览

python - 时间序列问题的自动特征生成 - Featuretools

我正在尝试使用功能工具来生成功能,以帮助我预测下个月的博物馆参观次数。

特征工具可以为时间序列生成特征吗?我应该更改数据以便 id 是月份还是 featuretools 可以自动完成?

0 投票
1 回答
467 浏览

python-3.x - AttributeError: 'EntitySet' 对象在 featuretools 中没有属性'plot'

当我尝试运行命令时出现此异常:

es 对象是功能工具中的“EntitySet”类对象。

我使用以下命令创建了 es:

数据可以在这里获取:https ://www.instacart.com/datasets/grocery-shopping-2017

我正在尝试遵循名为:Predicting a customer's next purchase using automatic feature engineering

有关 Featuretools 的更多信息,请参见此处:https ://docs.featuretools.com/index.html

0 投票
1 回答
2117 浏览

python-3.x - AttributeError:模块'utils'在Python的featuretools中没有属性'make_labels'

我正在尝试遵循名为:Predicting a customer's next purchase using automatic feature engineering

有关 Featuretools 的更多信息,请参见此处:https ://docs.featuretools.com/index.html

数据可以在这里获取:https ://www.instacart.com/datasets/grocery-shopping-2017

当我尝试运行教程(jupyter notebook)中包含的命令时,我遇到了这个异常:

es 对象是功能工具中的“EntitySet”类对象。

我使用以下命令创建了 es:

0 投票
1 回答
76 浏览

prediction - 预测和时间序列

如何决定我的预测有多提前?

我正在关注功能工具流失教程 https://github.com/Featuretools/predict-customer-churn

我不太明白它是如何决定提前一个月预测的。在我尝试过的之前的流失示例中,我只是得到汇总数据(它可能是一年或几个月的历史数据)然后我建立流失模型并预测,但我不知道我的预测是一年一个月还是提前多少天,这是如何决定的!它是否取决于聚合时间或我没有使用的数据。我知道截止时间是我要进行预测的时间,但是我如何告诉系统我要提前 2 个月进行预测我只是通过设置截止时间而忽略过去两个月的数据,但提供标签两个月后,说我的模型基于我得到的功能是一个 2 个月的高级预测。

例如。截止日期是 2010 年 1 月 8 日标签是 2010 年 1 月 10 日的客户状态,所以两个月的时间是提前预测吗?我使用了截止时间之前的所有历史数据?

这可能是一个时间序列问题,它变成了一个简单的分类,但我不确定!

0 投票
1 回答
60 浏览

featuretools - 特征工具默认截止时间

如果我没有指定cutoff_time哪个日期将是原始 TIME_SINCE_LAST 的参考?

我在文档中找不到它。

谢谢!

0 投票
1 回答
38 浏览

featuretools - 我如何解释这个特定的功能

假设我有 3 个实体:parent1 <- child -> parent2。我使用dfs()并获得了我无法理解的功能MEAN(child.parent2.MEAN(child.num_feature))。阅读文档我认为any_entity.MEAN功能是“按实体分组然后应用平均值”,但现在这种方法不起作用

0 投票
1 回答
31 浏览

featuretools - 避免子实体的日期列重复

我有一个简单的实体集parent1 <- child -> parent2,需要使用截止数据框。我的目标是parent1并且在预测的任何时候都可以访问。我只想为 指定一date列,parent2以便time可以将这些信息加入到child. 它不是这样工作的,我从parent1-child实体的第一级特征上得到数据泄漏。我唯一能做的就是将该date列复制到child。是否可以标准化child避免date列?

例子。假设我们有 3 个实体。盒子球员信息(parent1 带有“name”)、比赛信息(parent2 带有“country”)以及它们的组合(在一场特定比赛中的 child 带有“n_hits”):

在这里,我想使用我在 1 月 15 日拥有的所有可用信息。所以唯一合法的是第一场比赛的信息,而不是第二场比赛的信息。

我有

我知道设置正确的唯一方法match_dateplayer_statsmatches

我得到了预期的结果

0 投票
0 回答
61 浏览

python-3.x - 在 google datalab 中安装 featuretools 库会出错

我正在尝试在 Google datalabs 中安装 featuretools 库。尝试了几个版本,但仍然出现不兼容的错误。也在 python 2 和 python 3 中尝试过。

在此处输入图像描述

尝试了 0.6.1、0.6.0 和 0.5.1,但没有任何效果。

0 投票
0 回答
319 浏览

python - 将一个 dask 数据帧包写入磁盘(使用 dask 和 featuretools 生成 200 万个特征)

我对 Dask 和 Featuretools 都很陌生,所以我在将它们结合起来以并行化特征工程时遇到了很多困难

简短版本:解决一个直接的问题我有一个 dask bagdfspandas DataFrame希望将它们输出为 csv,每个文件都以分区作为标识符。to_textfiles()引发错误,我似乎无法找到获取要使用的分区号的方法dfs.map(pd.to_csv, "[partition_num].csv")。有没有办法做到这一点?

长版:对于那些想知道为什么我有一大包熊猫数据框的人,我把我的整个问题放在这里寻找更好的方法。我正在尝试使用特征工具为 22k 行的数据集生成 200 万个特征(稍后用于特征选择)。我正在尝试遵循参考资料(这篇文章这个笔记本)。在 notebook 中,数据集很大(4500 万行),比我的 22k 行数据集大得多。

尽管如此,我确实将我的数据分成了 741 行的分区,因为将entity set完整数据传递给calculate_feature_matrix的顺序组件花费了太长时间(可能要分配entity set给工作人员)。即使我只用整个数据集生成一个特征,也会发生这种情况。在运行 20 分钟后,我的dask-workers( LSFCluster ) 的 CPU 利用率都没有超过 5% calculate_matrix,这导致了大量的错误跟踪:

使用具有一个特征的整个数据集:

除了拆分数据集,我还按特征拆分,一次做一个特征。我现在想将该功能写入磁盘,但想将它们组合成 1k 块而不是输出 2 mil csv 文件。以下是我到目前为止的方法,最终以 dfsdask bagpandas DataFrame

对于 741 行的每个分区,一次计算一个特征

这是我的第一个 SO 问题,所以请让我知道要修复/添加什么以使我的问题更清楚。谢谢!

0 投票
1 回答
1049 浏览

python - 如何使用 Featuretools 为没有直接特征的单个表创建特征?

我使用了@willk 的答案,但它弹出一个错误。在这里查看威尔克的答案。willk 的回答我无法在他的回答中发表评论,因为我没有足够的声誉(超过 50 岁)。

所以我的问题是如何使下面的代码工作?或者请提供一个解决方案,使用功能工具为单个表应用自动特征工程(以 iris 为例),并且没有立即规范化的特征(从现有表创建一个新表)。

ValueError: ('Unknown transform primitive add.', 'Call ft.primitives.list_primitives() to get', 'a list of available primitives')