问题标签 [featuretools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-science - featuretools / DFS 生成什么样的特征向量?
由 featuretools/DFS 生成的特征向量是密集的还是稀疏的,还是依赖于某些东西?
data-science - 使用 featuretools / DFS 更新数据
在 ML 2.0 和 AI PM 论文中,它暗示更新数据——可能是现有数据或新数据——动态(实时)发生。例如,在 AI PM 论文中,它说:“相反,我们已经展示了一个在现实世界中工作的完整系统,可以持续更新实时数据。”
您的意思是更新数据会自动预处理成适当的特征向量并包含在下一个模型重新训练周期中吗?或者,模型是否正在动态更新?
data-science - 计算特征矩阵时提高性能?
是否calculate_feature_matrix
使用任何库(例如 numba)来提高性能?
data-science - 使用 dfs 和 calculate_feature_matrix?
您可以ft.dfs
用来取回特征定义作为输入,ft.calculate_feature_matrix
也可以只ft.dfs
用来计算特征矩阵。是否有推荐的使用方法ft.dfs
和ft.calculate_feature_matrix
最佳实践?
featuretools - 使用特征工具为预测模型生成标签
我目前正在使用我自己的数据完成功能工具演示( https://github.com/Featuretools/predict_next_purchase/blob/master/Tutorial.ipynb )。我创建了一个实体集,并尝试首先创建标签。笔记本引用了导入实用程序,但没有使用功能工具进行安装。这是我需要安装的单独模块吗?
python 2.7 pip 安装功能工具
featuretools - Featuretools dfs 运行时错误
针对我自己的数据完成功能工具“predict_next_purchase”演示。我创建了实体集,还创建了一个新的 pandas.dataframe,其中包含标签和时间。我已经到了使用 ft.dfs 进行深度特征合成的地步,并且得到了 RuntimeError: maximum recursion depth exceeded。下面是堆栈跟踪:
堆栈跟踪:
python - 手动定义种子特征的“where子句”?
用于ft.dfs
获取特征定义时,该where_primitives
参数根据实体的感兴趣变量过滤值。是否也可以手动定义种子功能的“where 子句”?
python - 如何使用功能工具防止数据泄漏
我喜欢功能工具,但我很难将其用于我的数据科学工作流程,因为我担心数据泄漏。
我认为防止这种情况的方法是在训练集上运行深度特征合成,然后将适当的值加入测试集,并仅在训练集中不存在的类别组上计算特征。
有没有更合适的处理泄漏的方法?
featuretools - 未设置功能工具 last_time_index
我建立了一个实体集,该实体集中的一个表称为“检查”。我已经为此表设置了 time_index 列,但是在运行 dfs 时,我收到警告“使用 training_window 但未在实体检查中设置 last_time_index”。文档显示这应该设置为一个系列: last_time_index (pd.Series) – 所有子实体中每个实例的最后一个事件的时间索引。
有人可以提供一个示例,说明我应该如何以及将 last_time_index 设置为哪些值?
请注意,计算仍然正确,但我担心警告消息。