1

我正在尝试使用 Spark 的 LinearRegressionWithSGD 来按国家和设备预测商品的价格。在查看了 Spark MLLib 的特征提取部分之后,我有点不清楚我应该如何散列这些特征。一个示例记录是:

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}

我尝试了几种散列技术(例如 MurmurHash),但它们似乎都获得了垃圾权重(例如 NAN、PositiveInfinity 等)或趋向于 10^200+ 的权重。有没有人在 Spark MLLib 中成功散列标记的特征?

4

1 回答 1

0

对该国家进行哈希计算可能会将不相关的观察结果混为一谈。您可能可以在设备上使用simhash ,并在国家/地区使用精确比较(不区分大小写)。跨两个变量的散列方法可能适用于聚类,但不太可能适用于回归。

为每个国家创建单独的曲线,您可能会尝试将simhash应用于移动设备。

于 2016-03-04T16:42:55.973 回答