“featuretools”的相关标签问题

0 投票

1 回答

456 浏览

python - 时间序列问题的自动特征生成 - Featuretools

我正在尝试使用功能工具来生成功能，以帮助我预测下个月的博物馆参观次数。

特征工具可以为时间序列生成特征吗？我应该更改数据以便 id 是月份还是 featuretools 可以自动完成？

python featuretools

2019-02-17T05:40:46.017

0 投票

1 回答

467 浏览

python-3.x - AttributeError: 'EntitySet' 对象在 featuretools 中没有属性'plot'

当我尝试运行命令时出现此异常：

es 对象是功能工具中的“EntitySet”类对象。

我使用以下命令创建了 es：

数据可以在这里获取：https ://www.instacart.com/datasets/grocery-shopping-2017

我正在尝试遵循名为：Predicting a customer's next purchase using automatic feature engineering

有关 Featuretools 的更多信息，请参见此处：https ://docs.featuretools.com/index.html

python-3.x featuretools

2019-02-17T10:56:22.913

0 投票

1 回答

2117 浏览

python-3.x - AttributeError：模块'utils'在Python的featuretools中没有属性'make_labels'

我正在尝试遵循名为：Predicting a customer's next purchase using automatic feature engineering

有关 Featuretools 的更多信息，请参见此处：https ://docs.featuretools.com/index.html

数据可以在这里获取：https ://www.instacart.com/datasets/grocery-shopping-2017

当我尝试运行教程（jupyter notebook）中包含的命令时，我遇到了这个异常：

es 对象是功能工具中的“EntitySet”类对象。

我使用以下命令创建了 es：

python-3.x featuretools

2019-02-17T11:08:38.163

0 投票

1 回答

76 浏览

prediction - 预测和时间序列

如何决定我的预测有多提前？

我正在关注功能工具流失教程 https://github.com/Featuretools/predict-customer-churn

我不太明白它是如何决定提前一个月预测的。在我尝试过的之前的流失示例中，我只是得到汇总数据（它可能是一年或几个月的历史数据）然后我建立流失模型并预测，但我不知道我的预测是一年一个月还是提前多少天，这是如何决定的！它是否取决于聚合时间或我没有使用的数据。我知道截止时间是我要进行预测的时间，但是我如何告诉系统我要提前 2 个月进行预测我只是通过设置截止时间而忽略过去两个月的数据，但提供标签两个月后，说我的模型基于我得到的功能是一个 2 个月的高级预测。

例如。截止日期是 2010 年 1 月 8 日标签是 2010 年 1 月 10 日的客户状态，所以两个月的时间是提前预测吗？我使用了截止时间之前的所有历史数据？

这可能是一个时间序列问题，它变成了一个简单的分类，但我不确定！

prediction supervised-learning featuretools churn

2019-02-19T07:12:53.773

0 投票

1 回答

60 浏览

featuretools - 特征工具默认截止时间

如果我没有指定cutoff_time哪个日期将是原始 TIME_SINCE_LAST 的参考？

我在文档中找不到它。

谢谢！

featuretools

2019-02-20T15:35:01.867

0 投票

1 回答

38 浏览

featuretools - 我如何解释这个特定的功能

假设我有 3 个实体：parent1 <- child -> parent2。我使用dfs()并获得了我无法理解的功能MEAN(child.parent2.MEAN(child.num_feature))。阅读文档我认为any_entity.MEAN功能是“按实体分组然后应用平均值”，但现在这种方法不起作用

featuretools

2019-02-23T20:39:34.993

0 投票

1 回答

31 浏览

featuretools - 避免子实体的日期列重复

我有一个简单的实体集parent1 <- child -> parent2，需要使用截止数据框。我的目标是parent1并且在预测的任何时候都可以访问。我只想为指定一date列，parent2以便time可以将这些信息加入到child. 它不是这样工作的，我从parent1-child实体的第一级特征上得到数据泄漏。我唯一能做的就是将该date列复制到child。是否可以标准化child避免date列？

例子。假设我们有 3 个实体。盒子球员信息（parent1 带有“name”）、比赛信息（parent2 带有“country”）以及它们的组合（在一场特定比赛中的 child 带有“n_hits”）：

在这里，我想使用我在 1 月 15 日拥有的所有可用信息。所以唯一合法的是第一场比赛的信息，而不是第二场比赛的信息。

我有

我知道设置正确的唯一方法match_date是player_stats从matches

我得到了预期的结果

featuretools

2019-02-25T18:29:32.860

0 投票

0 回答

61 浏览

python-3.x - 在 google datalab 中安装 featuretools 库会出错

我正在尝试在 Google datalabs 中安装 featuretools 库。尝试了几个版本，但仍然出现不兼容的错误。也在 python 2 和 python 3 中尝试过。

尝试了 0.6.1、0.6.0 和 0.5.1，但没有任何效果。

python-3.x google-cloud-datalab featuretools

2019-02-27T03:34:27.943

0 投票

0 回答

319 浏览

python - 将一个 dask 数据帧包写入磁盘（使用 dask 和 featuretools 生成 200 万个特征）

我对 Dask 和 Featuretools 都很陌生，所以我在将它们结合起来以并行化特征工程时遇到了很多困难

简短版本：解决一个直接的问题我有一个 dask bagdfs并pandas DataFrame希望将它们输出为 csv，每个文件都以分区作为标识符。to_textfiles()引发错误，我似乎无法找到获取要使用的分区号的方法dfs.map(pd.to_csv, "[partition_num].csv")。有没有办法做到这一点？

长版：对于那些想知道为什么我有一大包熊猫数据框的人，我把我的整个问题放在这里寻找更好的方法。我正在尝试使用特征工具为 22k 行的数据集生成 200 万个特征（稍后用于特征选择）。我正在尝试遵循参考资料（这篇文章和这个笔记本）。在 notebook 中，数据集很大（4500 万行），比我的 22k 行数据集大得多。

尽管如此，我确实将我的数据分成了 741 行的分区，因为将entity set完整数据传递给calculate_feature_matrix的顺序组件花费了太长时间（可能要分配entity set给工作人员）。即使我只用整个数据集生成一个特征，也会发生这种情况。在运行 20 分钟后，我的dask-workers( LSFCluster ) 的 CPU 利用率都没有超过 5% calculate_matrix，这导致了大量的错误跟踪：

使用具有一个特征的整个数据集：

除了拆分数据集，我还按特征拆分，一次做一个特征。我现在想将该功能写入磁盘，但想将它们组合成 1k 块而不是输出 2 mil csv 文件。以下是我到目前为止的方法，最终以 dfsdask bag为pandas DataFrame

对于 741 行的每个分区，一次计算一个特征：

这是我的第一个 SO 问题，所以请让我知道要修复/添加什么以使我的问题更清楚。谢谢！

python dask dask-distributed featuretools feature-engineering

2019-02-27T15:14:58.943

0 投票

1 回答

1049 浏览

python - 如何使用 Featuretools 为没有直接特征的单个表创建特征？

我使用了@willk 的答案，但它弹出一个错误。在这里查看威尔克的答案。willk 的回答我无法在他的回答中发表评论，因为我没有足够的声誉（超过 50 岁）。

所以我的问题是如何使下面的代码工作？或者请提供一个解决方案，使用功能工具为单个表应用自动特征工程（以 iris 为例），并且没有立即规范化的特征（从现有表创建一个新表）。

ValueError: ('Unknown transform primitive add.', 'Call ft.primitives.list_primitives() to get', 'a list of available primitives')

python featuretools

2019-03-14T05:14:03.743

问题标签 [featuretools]

Reference