我正在对 sklearn 中的一些功能进行矢量化处理,但遇到了问题。如果您的数据可以被编码为每个项目的一个字典键,则 DictVectorizer 效果很好。如果您的项目可以具有同一列的两个或多个值怎么办?例如, DictVectorizer 在这样的项目上工作正常:
{'a': 'b', 'b': 'c'}
但是像这样的东西,每列有多个值呢?
{'a': ['b','c'], 'b': 'd'}
one-hot-encoding 的策略仍然可以应用,你只需要两个 a 列…… a=b 和 a=c。据我所知,不存在这样的矢量化器!在这种情况下应该怎么做?我需要创建自己的 MultiDictVectorizer 吗?
在发布之前,我在这里的一篇博文中写过这个。