0

我有一个本地存储的半大型网站(使用 httrack 从服务器中提取)。这个特定网站的目录结构有几个文件夹/子文件夹以及大量的 html 文件。我想知道是否有任何工具(它实际上可以是任何东西:脚本、c++/c 代码等)可以让我在所有 html 文件中生成单个词频计数器表。这里的诀窍是我只对计算实际内容词感兴趣(即,不是 html 代码,尽管如果是这样的话,以后可以很容易地删除它们)。任何建议都非常感谢!

4

2 回答 2

3

去掉 html 代码后,使用collections.Counter

>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words

如果您没有剥离 html 的方法,请查看lxml以执行此操作

希望这可以帮助

于 2012-10-04T23:31:52.680 回答
2

请参阅http://www.hermetic.ch/wfca/wfca.htm上的 Hermetic Word Frequency Counter 的高级版本,它扫描多个文件并去除 HTML 标记。不是免费的,但可以很好地计算 HTML 文件中的单词。甚至是子文件夹。

于 2012-10-10T05:55:12.633 回答