需要帮助和建议。已经设置了一个带有 mahout 集群的 5 hadoop
我有两组数据:
表1:id1,地址1
表2:id2,地址2
如何使用 mahout 查找相似性评分,以便比较两个文件中的地址,以便我得到以下结果?
结果:地址1,地址2,分数
完成了:
将文件合并到一个 csv
转换为序列文件:seqdirectory,
- 矢量化:seq2sparse(-wt tfidf)
不完全确定在此之后去哪里。推荐或聚类。如何使用jaccard索引等需要指针和例子。
需要帮助和建议。已经设置了一个带有 mahout 集群的 5 hadoop
我有两组数据:
表1:id1,地址1
表2:id2,地址2
如何使用 mahout 查找相似性评分,以便比较两个文件中的地址,以便我得到以下结果?
结果:地址1,地址2,分数
完成了:
将文件合并到一个 csv
转换为序列文件:seqdirectory,
不完全确定在此之后去哪里。推荐或聚类。如何使用jaccard索引等需要指针和例子。
虽然您可以将通用文本相似性算法应用于地址,但我很确定它会产生糟糕的结果,因为任何通用算法都不会考虑拼写错误。“Main St”将与“Main Dr”相似,就像“Main Street”一样。“Apt 203”和“#203”不相关。
那就是——我不认为向量化表示是一个好的模糊匹配算法的基础。因此 Mahout 不会直接有用,但可能会提供一些基础设施来构建您自己的非矢量数据集群。
在选择工具之前,我会备份并定义您的算法。
使用 Mahout 进行地址相似性可能太多了。您是否考虑过使用像 SimHash 这样更简单的算法?以下是关于它的精彩教程。用于 SimHash 和查找带状疱疹等的 Java 库可在 Google 代码中找到。
http://matpalm.com/resemblance/simhash/
你会在这里找到 lib