问题标签 [featuretools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 时间序列问题的自动特征生成 - Featuretools
我正在尝试使用功能工具来生成功能,以帮助我预测下个月的博物馆参观次数。
特征工具可以为时间序列生成特征吗?我应该更改数据以便 id 是月份还是 featuretools 可以自动完成?
python-3.x - AttributeError: 'EntitySet' 对象在 featuretools 中没有属性'plot'
当我尝试运行命令时出现此异常:
es 对象是功能工具中的“EntitySet”类对象。
我使用以下命令创建了 es:
数据可以在这里获取:https ://www.instacart.com/datasets/grocery-shopping-2017
我正在尝试遵循名为:Predicting a customer's next purchase using automatic feature engineering
有关 Featuretools 的更多信息,请参见此处:https ://docs.featuretools.com/index.html
python-3.x - AttributeError:模块'utils'在Python的featuretools中没有属性'make_labels'
我正在尝试遵循名为:Predicting a customer's next purchase using automatic feature engineering
有关 Featuretools 的更多信息,请参见此处:https ://docs.featuretools.com/index.html
数据可以在这里获取:https ://www.instacart.com/datasets/grocery-shopping-2017
当我尝试运行教程(jupyter notebook)中包含的命令时,我遇到了这个异常:
es 对象是功能工具中的“EntitySet”类对象。
我使用以下命令创建了 es:
prediction - 预测和时间序列
如何决定我的预测有多提前?
我正在关注功能工具流失教程 https://github.com/Featuretools/predict-customer-churn
我不太明白它是如何决定提前一个月预测的。在我尝试过的之前的流失示例中,我只是得到汇总数据(它可能是一年或几个月的历史数据)然后我建立流失模型并预测,但我不知道我的预测是一年一个月还是提前多少天,这是如何决定的!它是否取决于聚合时间或我没有使用的数据。我知道截止时间是我要进行预测的时间,但是我如何告诉系统我要提前 2 个月进行预测我只是通过设置截止时间而忽略过去两个月的数据,但提供标签两个月后,说我的模型基于我得到的功能是一个 2 个月的高级预测。
例如。截止日期是 2010 年 1 月 8 日标签是 2010 年 1 月 10 日的客户状态,所以两个月的时间是提前预测吗?我使用了截止时间之前的所有历史数据?
这可能是一个时间序列问题,它变成了一个简单的分类,但我不确定!
featuretools - 特征工具默认截止时间
如果我没有指定cutoff_time
哪个日期将是原始 TIME_SINCE_LAST 的参考?
我在文档中找不到它。
谢谢!
featuretools - 我如何解释这个特定的功能
假设我有 3 个实体:parent1 <- child -> parent2。我使用dfs()
并获得了我无法理解的功能MEAN(child.parent2.MEAN(child.num_feature))
。阅读文档我认为any_entity.MEAN
功能是“按实体分组然后应用平均值”,但现在这种方法不起作用
featuretools - 避免子实体的日期列重复
我有一个简单的实体集parent1 <- child -> parent2
,需要使用截止数据框。我的目标是parent1
并且在预测的任何时候都可以访问。我只想为 指定一date
列,parent2
以便time
可以将这些信息加入到child
. 它不是这样工作的,我从parent1-child
实体的第一级特征上得到数据泄漏。我唯一能做的就是将该date
列复制到child
。是否可以标准化child
避免date
列?
例子。假设我们有 3 个实体。盒子球员信息(parent1 带有“name”)、比赛信息(parent2 带有“country”)以及它们的组合(在一场特定比赛中的 child 带有“n_hits”):
在这里,我想使用我在 1 月 15 日拥有的所有可用信息。所以唯一合法的是第一场比赛的信息,而不是第二场比赛的信息。
我有
我知道设置正确的唯一方法match_date
是player_stats
从matches
我得到了预期的结果
python - 将一个 dask 数据帧包写入磁盘(使用 dask 和 featuretools 生成 200 万个特征)
我对 Dask 和 Featuretools 都很陌生,所以我在将它们结合起来以并行化特征工程时遇到了很多困难
简短版本:解决一个直接的问题我有一个 dask bagdfs
并pandas DataFrame
希望将它们输出为 csv,每个文件都以分区作为标识符。to_textfiles()引发错误,我似乎无法找到获取要使用的分区号的方法dfs.map(pd.to_csv, "[partition_num].csv")
。有没有办法做到这一点?
长版:对于那些想知道为什么我有一大包熊猫数据框的人,我把我的整个问题放在这里寻找更好的方法。我正在尝试使用特征工具为 22k 行的数据集生成 200 万个特征(稍后用于特征选择)。我正在尝试遵循参考资料(这篇文章和这个笔记本)。在 notebook 中,数据集很大(4500 万行),比我的 22k 行数据集大得多。
尽管如此,我确实将我的数据分成了 741 行的分区,因为将entity set
完整数据传递给calculate_feature_matrix的顺序组件花费了太长时间(可能要分配entity set
给工作人员)。即使我只用整个数据集生成一个特征,也会发生这种情况。在运行 20 分钟后,我的dask-workers
( LSFCluster ) 的 CPU 利用率都没有超过 5% calculate_matrix
,这导致了大量的错误跟踪:
使用具有一个特征的整个数据集:
除了拆分数据集,我还按特征拆分,一次做一个特征。我现在想将该功能写入磁盘,但想将它们组合成 1k 块而不是输出 2 mil csv 文件。以下是我到目前为止的方法,最终以 dfsdask bag
为pandas DataFrame
对于 741 行的每个分区,一次计算一个特征:
这是我的第一个 SO 问题,所以请让我知道要修复/添加什么以使我的问题更清楚。谢谢!
python - 如何使用 Featuretools 为没有直接特征的单个表创建特征?
我使用了@willk 的答案,但它弹出一个错误。在这里查看威尔克的答案。willk 的回答我无法在他的回答中发表评论,因为我没有足够的声誉(超过 50 岁)。
所以我的问题是如何使下面的代码工作?或者请提供一个解决方案,使用功能工具为单个表应用自动特征工程(以 iris 为例),并且没有立即规范化的特征(从现有表创建一个新表)。
ValueError: ('Unknown transform primitive add.', 'Call ft.primitives.list_primitives() to get', 'a list of available primitives')