我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的特征提取部分之后,我有点不清楚我应该如何散列这些特征。一个示例记录是:
{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}
我尝试了几种散列技术(例如 MurmurHash),但它们似乎都获得了垃圾权重(例如 NAN、PositiveInfinity 等)或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功散列标记的特征?