numpy - 处理具有数字属性的标称值的策略

Question

我正在使用一个数据集，该数据集主要包含来自 SFDC 的名义值（例如 EE 名称、职务、角色、潜在客户来源、客户名称等），并试图将这些特征与销售线索是否是布尔类相关联转换为销售联系人。

我想通过一些基本的特征选择算法来运行这些数据，但大多数只需要数值。我可以使用布尔映射方案将每个独特的分类映射到一个新的字段（特征），但是我会生成大量的新特征，我不确定这是否会产生有意义的输出。诚然，最好的解决方案可能是通过决策树运行数据，但想看看社区中其他人是否提出了其他策略来处理已在现实世界中成功使用的大多数名义数据的数据集应用程序。

我正在使用 python 和 scipy/numpy/pandas/scikit-learn 进行分析。

score 1 · Accepted Answer

我会首先尝试使用sklearn.feature_extraction.DictVectorizer，然后尝试可以处理稀疏数据表示的 Chi2 单变量特征选择。例如，在 scikit-learn 中有一个对稀疏文本数据进行 chi2 特征选择的应用：http: //scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html

不幸的是，scikit-learn 的决策树和集成尚不适用于稀疏表示。

numpy - 处理具有数字属性的标称值的策略

1 回答 1

Related

Reference