2

我想尝试 featuretools,但我需要一个提示,我该如何使用我的数据集。我在熊猫数据框中有数据,这是一个回归问题。

这是我的数据集的示例: 在此处输入图像描述

我尝试了什么:

import featuretools as ft
es = ft.EntitySet(id = 'train_X')
es = es.entity_from_dataframe(entity_id="train_X",
                                  dataframe=X,
                                  index="Index",
                        variable_types={
 "Market": ft.variable_types.Categorical,
 "Stock": ft.variable_types.Categorical,}
                                 )

feature_matrix_customers, features_defs = ft.dfs(entities=es,
                                           target_entity="y")

并得到一个错误:

 KeyError: 'Entity 0 does not exist in train_X').
4

2 回答 2

3

这里的问题可能是您尝试直接使用 pandas 数据框作为输入,而不是将数据加载到 EntitySet 中。相反,您应该创建一个EntitySet并为此构建功能。您还可以使用EntitySet.enormalize_entity(...)EntitySet来创建其他实体以帮助特征工程。

注意:您可能希望研究使用这种数据类型的cutoff_times,这将允许您指定哪些数据可以和不能用于生成特征。

于 2018-04-04T14:34:35.797 回答
2

尝试这个。

feature_matrix_customers, features_defs = ft.dfs(entityset=es, entities=es, target_entity="train_X")
于 2018-07-09T16:30:36.020 回答