我有 NYC 311 投诉数据集。我想构建一个随机森林分类器,它将获取有关投诉的分类输入特征并确定投诉类型。 以下是给定投诉记录的输入特征
X = df[['Location Type', 'Incident Zip', 'Street Name',
'City', 'Borough', 'Open Data Channel Type']]
所有这些特征都是名义变量(分类),我需要将字符串变量转换为浮点变量,然后再将它们提供给模型。我不愿意使用一种热标签编码,因为某些功能有 1000 多个类别,而且我的笔记本电脑可能无法进行进一步的计算。
我正在考虑使用每个变量的权重(特定类别的计数/总计数)而不是名义字符串变量?这会是一个好策略吗?