我正在运行 featuretools 来创建新功能,并从现有数据框中创建了实体集。
用于训练的数据框有约 233K 条记录和 81 列,分为 3 个实体并作为 es.dfs 命令的输入参数提供,该命令在训练数据集上需要大约 2.5 小时的执行时间,在测试数据集上需要 1.5 小时。测试数据集大小约为 120K,有 80 列。
如何在减少执行时间方面提高性能?我在 Kaggle Kernel 上运行代码,在仅运行 es.dfs 命令的会话可用的 9 个小时中,我损失了近 4 个多小时。
我已经在 featuretools 网站上引用了关于并行处理和加速代码的代码,但是当从数据框创建实体时如何去做,或者我可能不是很清楚地理解它时,它不是很清楚。
执行时间减少了 1/4 倍。