问题标签 [featuretools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
346 浏览

data-science - featuretools / DFS 生成什么样的特征向量?

由 featuretools/DFS 生成的特征向量是密集的还是稀疏的,还是依赖于某些东西?

0 投票
1 回答
118 浏览

data-science - 使用 featuretools / DFS 更新数据

在 ML 2.0 和 AI PM 论文中,它暗示更新数据——可能是现有数据或新数据——动态(实时)发生。例如,在 AI PM 论文中,它说:“相反,我们已经展示了一个在现实世界中工作的完整系统,可以持续更新实时数据。”

您的意思是更新数据会自动预处理成适当的特征向量并包含在下一个模型重新训练周期中吗?或者,模型是否正在动态更新?

0 投票
1 回答
207 浏览

data-science - 计算特征矩阵时提高性能?

是否calculate_feature_matrix使用任何库(例如 numba)来提高性能?

0 投票
1 回答
270 浏览

data-science - 使用 dfs 和 calculate_feature_matrix?

您可以ft.dfs用来取回特征定义作为输入,ft.calculate_feature_matrix也可以只ft.dfs用来计算特征矩阵。是否有推荐的使用方法ft.dfsft.calculate_feature_matrix最佳实践?

0 投票
1 回答
364 浏览

featuretools - 使用特征工具为预测模型生成标签

我目前正在使用我自己的数据完成功能工具演示( https://github.com/Featuretools/predict_next_purchase/blob/master/Tutorial.ipynb )。我创建了一个实体集,并尝试首先创建标签。笔记本引用了导入实用程序,但没有使用功能工具进行安装。这是我需要安装的单独模块吗?

python 2.7 pip 安装功能工具

0 投票
1 回答
218 浏览

featuretools - Featuretools dfs 运行时错误

针对我自己的数据完成功能工具“predict_next_purchase”演示。我创建了实体集,还创建了一个新的 pandas.dataframe,其中包含标签和时间。我已经到了使用 ft.dfs 进行深度特征合成的地步,并且得到了 RuntimeError: maximum recursion depth exceeded。下面是堆栈跟踪:

堆栈跟踪:

0 投票
1 回答
206 浏览

python - 手动定义种子特征的“where子句”?

用于ft.dfs获取特征定义时,该where_primitives参数根据实体的感兴趣变量过滤值。是否也可以手动定义种子功能的“where 子句”?

0 投票
2 回答
1165 浏览

featuretools - featuretools:如何为回归任务正确生成特征

我想尝试 featuretools,但我需要一个提示,我该如何使用我的数据集。我在熊猫数据框中有数据,这是一个回归问题。

这是我的数据集的示例: 在此处输入图像描述

我尝试了什么:

并得到一个错误:

0 投票
1 回答
1118 浏览

python - 如何使用功能工具防止数据泄漏

我喜欢功能工具,但我很难将其用于我的数据科学工作流程,因为我担心数据泄漏。

我认为防止这种情况的方法是在训练集上运行深度特征合成,然后将适当的值加入测试集,并仅在训练集中不存在的类别组上计算特征。

有没有更合适的处理泄漏的方法?

0 投票
1 回答
475 浏览

featuretools - 未设置功能工具 last_time_index

我建立了一个实体集,该实体集中的一个表称为“检查”。我已经为此表设置了 time_index 列,但是在运行 dfs 时,我收到警告“使用 training_window 但未在实体检查中设置 last_time_index”。文档显示这应该设置为一个系列: last_time_index (pd.Series) – 所有子实体中每个实例的最后一个事件的时间索引。

有人可以提供一个示例,说明我应该如何以及将 last_time_index 设置为哪些值?

请注意,计算仍然正确,但我担心警告消息。