4

我有一个 HTML 文档,我想找到 HTML 元素,它是最接近给定单词的最大提及集群的包装器。

使用以下 HTML:

<body>
    <p>
        Hello <b>foo</b>, I like foo, because foo is the best.
    <p>
    <div>
        <blockquote>
            <p><strong>Foo</strong> said: foo foo!</p>
            <p>Smurfs ate the last foo and turned blue. Foo!</p>
            <p>Foo foo.</p>
        </blockquote>
    </div>
</body>

我想要一个功能

find_largest_cluster_wrapper(html, word='foo')

...这将解析 DOM 树并返回 me<blockquote>元素,因为它包含最大密度的foo提及并且它是最接近的包装器。

第一个<p>包含foo 3 次,<b>唯一一次,inner <p>s 包含foo 3 次,两次再两次,<strong>只有一次。但<blockquote>包含foo 4 次。也是如此<div>,但它不是最接近的包装器。该<body>元素的提及次数最多,但集群太稀疏。

没有聚类的直接实现总是会给我<html><body>类似的东西,因为这些元素总是有最多的请求提及,并且可能是最接近它们的包装器。但是,我需要使用最大集群的东西,因为我只对单词密度最高的网页部分感兴趣。

我对解析部分不是很好奇,它可以被beautifulsoup4其他库很好地解决。我想知道一种有效的算法来进行聚类。我用谷歌搜索了一段时间,我认为集群包可能会有所scipy帮助,但我不知道如何使用它。谁能推荐我最好的解决方案并将我踢向正确的方向?例子会非常棒。


嗯,一般来说很难回答这样的问题,因为正如你所指出的,条件是模糊的。所以,更具体地说:

通常,文档可能只包含一个这样的集群。我的目的是找到这样的集群并获得它的包装器,以便我可以使用它进行操作。这个词也可以在页面的其他地方提到,但我正在寻找一个值得注意的这样的词群。如果有两个或更多值得注意的集群,那么我必须使用外部偏见来决定(检查标题、页面标题等)。集群引人注目是什么意思?这正是我刚才介绍的意思——没有“严肃”的竞争对手。如果竞争对手是认真的或不认真的,我可以提供一些数字(比率),例如,如果有 10 个集群和 2 个集群,则差异将是 80%。我可以说,如果有一个差异大于 50% 的集群,那将是值得注意的集群。这意味着,如果它是 5 个集群和另一个 5 个集群,则该函数将返回None(无法决定)。

4

3 回答 3

3

所以这是一种方法:

|fitness(node, word) = count of word in node text if node is a leaf
|fitness(node, word) = sum(fitness(child, word) for child in children) / 
                         count of overall elements in node tree

这里是:

import lxml.html

node = """<html><body>
    <p>
        Hello <b>foo</b>, I like foo, because foo is the best.
    <p>
    <div>
        <blockquote>
            <p><strong>Foo</strong> said: foo foo!</p>
            <p>Smurfs ate the last foo and turned blue. Foo!</p>
            <p>Foo foo.</p>
        </blockquote>
    </div>
</body></html>"""

node = lxml.html.fromstring(node)

def suitability(node, word):
    mx = [0.0, None]
    _suitability(node, word, mx)
    return mx[1]

def _suitability(node, word, mx):

    children = node.getchildren()
    sparsity = 1
    result = float(node.text_content().lower().count(word))
    for child in children:
        res, spars = _suitability(child, word, mx)
        result += res
        sparsity += spars
    result /= sparsity
    current_max, max_node = mx
    if current_max < result:
        mx[0] = result
        mx[1] = node
    return result, sparsity

print suitability(node, 'foo')

它为我们提供了最合适的块引用元素。通过调整分数函数,您可以更改所需集群的参数。

于 2012-11-12T15:32:59.380 回答
1

所以它不是图书馆,但我有一个想法。

如果您构建 HTML 的解析树,然后用两件事注释每个节点会怎样:

  1. 它包含的单词总数。
  2. 它包含您的目标词的次数。

然后你可以在你的树上搜索一个最大化的节点target_count / total_count。这将为您提供最小包含元素的属性,因为树中较高的元素将包含更多单词。实际上,这样做是为您提供目标词密度最高的节点。

您可能会发现简单的除法并不能得到您想要的结果。例如,如果一个节点只包含你的目标词的一个副本,它将具有非常高的密度,但可能与你心中的集群概念不相符。在这种情况下,我将定义一些将元素中包含的单词数映射到大小的函数。如果您想确保集群具有一定的大小,并惩罚太大的集群(例如)<body>),可能是这样的:

def size(num_words):
   num_words = max(num_words, 40) # where 40 is the min size of a cluster
   if num_words > 1000: # This is too large, so we penalize
     num_words *= 1.5
   return num_words

现在你可以做target_count / size(total_count)

回复:scipy 聚类

这种聚类适用于向量。所以,为了使用这个包,你需要想出一种方法将你的目标词的出现转化为向量。我想不出一个好的方法来做到这一点,但这并不意味着不存在这样的方法。

于 2012-11-12T15:38:37.147 回答
1

聚类包不会有太大帮助,因为这不是聚类分析

它更多地涉及频繁模式挖掘,您可能想研究一下。

于 2012-11-12T22:36:04.097 回答