3

嗨,我有大数据集,其中既有字符串又有数值。

用户名(str),手机(str),请求数(int),下载次数(int),.......

我有大约 200 个这样的专栏。

有没有一种方法/算法可以在特征选择期间同时处理字符串和整数?或者我应该如何处理这个问题。

谢谢

4

3 回答 3

0

I've used Weka Feature Selection and although the attribute evaluator methods I've tried can't handle string attributes you can temporary remove them in the Preprocess > Filter > Unsupervised > Attribute > RemoveType, then perform the feature selection and, later, include strings again to do the classification.

于 2013-07-29T09:20:25.993 回答
0

您可以在 RapidMiner 的 Attribute Weighting 组中使用一组运算符。例如,相关权重或信息增益权重。

这些将根据与标签的相关性(在本例中为下载标志)评估赋予属性多少权重。然后可以将生成的权重与 Select by Weights 运算符一起使用,以消除那些不需要的权重。这种方法自己考虑属性。

您还可以构建分类模型并使用前向选择运算符来添加越来越多的属性并监控性能。这种方法将考虑属性之间的关系。

于 2013-04-14T19:55:58.050 回答
0

特征选择算法根据它们在分类中的影响为不同的特征分配权重。据我所知,在计算不同的权重时,特征类型并没有什么不同。我建议根据 ASCII 代码或任何其他技术将字符串特征转换为数字。然后就可以使用rapid miner中已有的特征选择算法了。

于 2013-04-08T19:18:01.493 回答