0

我正在尝试根据视觉接近度对网页内容进行聚类。您可以在http://i.stack.imgur.com/qzGKE.png下方的链接上看到块的可视化显示

我尝试使用带有以下功能的 DBSCAN 聚类与 sckikit-learn 并没有太大成功: - 块的左 X 坐标(因为内容经常左对齐) - 块的右 X 坐标(因为内容经常右对齐) - 顶部 Y块的坐标(进一步关闭块)

你对更好的功能有什么想法吗

4

1 回答 1

0

看看 Generalized DBSCAN (虽然在 scipy 中不可用)。

当对象重叠或几乎重叠(1 个像素)时,如何将对象聚集在一起?

请参阅:DBSCAN 并没有真正使用距离。它仅基于二进制“足够接近”的决定。

另请注意,DBSCAN不限于向量。DBSCAN 可以处理任何可以定义“足够相似”谓词的东西。

因此,您可能不需要“提取特征”,而是考虑何时希望两个对象位于同一个集群中。

于 2013-09-05T15:13:41.160 回答