2

由 featuretools/DFS 生成的特征向量是密集的还是稀疏的,还是依赖于某些东西?

4

1 回答 1

3

Featuretools 生成的特征向量的稀疏性通常取决于

  1. EntitySet问题的和
  2. 选择的基元。

基元旨在返回密集信息。虽然可以(但没有帮助)构造示例EntitySets以使原语的输出变得稀疏,但原语不返回任何信息而不是稀疏信息更为常见。

但是,某些原语和工作流比其他原语和工作流更有可能回馈稀疏。需要担心的一个大问题是 特征编码,它使用 one-hot。因为只有在某个值出现时才会生成一个带有 1 的向量,所以一个不经常出现的分类值会立即转换为一个稀疏向量。使用Where聚合原语有时会产生类似的结果。

于 2018-03-09T20:58:31.347 回答