我有一个 HTML 文档,我想找到 HTML 元素,它是最接近给定单词的最大提及集群的包装器。
使用以下 HTML:
<body>
<p>
Hello <b>foo</b>, I like foo, because foo is the best.
<p>
<div>
<blockquote>
<p><strong>Foo</strong> said: foo foo!</p>
<p>Smurfs ate the last foo and turned blue. Foo!</p>
<p>Foo foo.</p>
</blockquote>
</div>
</body>
我想要一个功能
find_largest_cluster_wrapper(html, word='foo')
...这将解析 DOM 树并返回 me<blockquote>
元素,因为它包含最大密度的foo提及并且它是最接近的包装器。
第一个<p>
包含foo 3 次,<b>
唯一一次,inner <p>
s 包含foo 3 次,两次再两次,<strong>
只有一次。但<blockquote>
包含foo 4 次。也是如此<div>
,但它不是最接近的包装器。该<body>
元素的提及次数最多,但集群太稀疏。
没有聚类的直接实现总是会给我<html>
或<body>
类似的东西,因为这些元素总是有最多的请求提及,并且可能是最接近它们的包装器。但是,我需要使用最大集群的东西,因为我只对单词密度最高的网页部分感兴趣。
我对解析部分不是很好奇,它可以被beautifulsoup4
其他库很好地解决。我想知道一种有效的算法来进行聚类。我用谷歌搜索了一段时间,我认为集群包可能会有所scipy
帮助,但我不知道如何使用它。谁能推荐我最好的解决方案并将我踢向正确的方向?例子会非常棒。
嗯,一般来说很难回答这样的问题,因为正如你所指出的,条件是模糊的。所以,更具体地说:
通常,文档可能只包含一个这样的集群。我的目的是找到这样的集群并获得它的包装器,以便我可以使用它进行操作。这个词也可以在页面的其他地方提到,但我正在寻找一个值得注意的这样的词群。如果有两个或更多值得注意的集群,那么我必须使用外部偏见来决定(检查标题、页面标题等)。集群引人注目是什么意思?这正是我刚才介绍的意思——没有“严肃”的竞争对手。如果竞争对手是认真的或不认真的,我可以提供一些数字(比率),例如,如果有 10 个集群和 2 个集群,则差异将是 80%。我可以说,如果有一个差异大于 50% 的集群,那将是值得注意的集群。这意味着,如果它是 5 个集群和另一个 5 个集群,则该函数将返回None
(无法决定)。