我正在尝试根据视觉接近度对网页内容进行聚类。您可以在http://i.stack.imgur.com/qzGKE.png下方的链接上看到块的可视化显示
我尝试使用带有以下功能的 DBSCAN 聚类与 sckikit-learn 并没有太大成功: - 块的左 X 坐标(因为内容经常左对齐) - 块的右 X 坐标(因为内容经常右对齐) - 顶部 Y块的坐标(进一步关闭块)
你对更好的功能有什么想法吗
我正在尝试根据视觉接近度对网页内容进行聚类。您可以在http://i.stack.imgur.com/qzGKE.png下方的链接上看到块的可视化显示
我尝试使用带有以下功能的 DBSCAN 聚类与 sckikit-learn 并没有太大成功: - 块的左 X 坐标(因为内容经常左对齐) - 块的右 X 坐标(因为内容经常右对齐) - 顶部 Y块的坐标(进一步关闭块)
你对更好的功能有什么想法吗