由 featuretools/DFS 生成的特征向量是密集的还是稀疏的,还是依赖于某些东西?
问问题
346 次
1 回答
3
Featuretools 生成的特征向量的稀疏性通常取决于
- 有
EntitySet
问题的和 - 选择的基元。
基元旨在返回密集信息。虽然可以(但没有帮助)构造示例EntitySets
以使原语的输出变得稀疏,但原语不返回任何信息而不是稀疏信息更为常见。
但是,某些原语和工作流比其他原语和工作流更有可能回馈稀疏。需要担心的一个大问题是 特征编码,它使用 one-hot。因为只有在某个值出现时才会生成一个带有 1 的向量,所以一个不经常出现的分类值会立即转换为一个稀疏向量。使用Where
聚合原语有时会产生类似的结果。
于 2018-03-09T20:58:31.347 回答