Geohash 字符串是我的稀疏逻辑回归模型中的一个特征。所以我使用 java string hashCode 在 geohash 字符串上生成 int 值以获得特征 ID。但我发现 hashCode 方法在类似的 geohash 字符串上表现不佳。这会导致不同的特征具有相同的特征 id,即使特征相似,这也可能对模型优化不利。例如,那些相似的 geohash 字符串对具有相同的 hashCode。
<"wws8vw", "wws8x9">
"wws8vw".hashCode() = -774715770
"wws8x9".hashCode() = -774715770
<"wmxy0", "wmxwn">
"wmxy0".hashCode() = 113265337
"wmxwn".hashCode() = 113265337
我猜geohash生成器方法和java hashCode方法之间有一些关系。那么,任何人都可以向我解释真正的原因以及如何减少 geohash 字符串上的冲突?