-3

如何使用 DBSCAN 算法对相似的 url 进行分组。我见过很多数据集,但没有一个在 url 上,我想采用类似类型的 url 并将其组合在一起。在这里,我无法知道距离(eps),而 minpoints 可以是要分组的 url 的数量。

4

1 回答 1

3

DBSCAN 需要一个距离函数和一个阈值来检测相似的物体。

所以继续吧,首先你需要定义一个适当的距离函数和一个阈值,然后我们可以帮助你使用 DBSCAN(但你应该能够找到可以扩展到任意距离函数的 DBSCAN 实现)。

关键的挑战是距离,这取决于你,因为我们不知道你想得到什么。这是非常主观的,我们只是不知道您想要或需要什么。

于 2012-09-14T10:34:08.913 回答