data-science - featuretools / DFS 生成什么样的特征向量？

问问题 2018-03-09T19:35:53.820

346 次

2

由 featuretools/DFS 生成的特征向量是密集的还是稀疏的，还是依赖于某些东西？

1 回答 1

3

Featuretools 生成的特征向量的稀疏性通常取决于

有EntitySet问题的和
选择的基元。

基元旨在返回密集信息。虽然可以（但没有帮助）构造示例EntitySets以使原语的输出变得稀疏，但原语不返回任何信息而不是稀疏信息更为常见。

但是，某些原语和工作流比其他原语和工作流更有可能回馈稀疏。需要担心的一个大问题是特征编码，它使用 one-hot。因为只有在某个值出现时才会生成一个带有 1 的向量，所以一个不经常出现的分类值会立即转换为一个稀疏向量。使用Where聚合原语有时会产生类似的结果。

于 2018-03-09T20:58:31.347 回答