python - 本地存储网站的词频计数器

Question

我有一个本地存储的半大型网站（使用 httrack 从服务器中提取）。这个特定网站的目录结构有几个文件夹/子文件夹以及大量的 html 文件。我想知道是否有任何工具（它实际上可以是任何东西：脚本、c++/c 代码等）可以让我在所有 html 文件中生成单个词频计数器表。这里的诀窍是我只对计算实际内容词感兴趣（即，不是 html 代码，尽管如果是这样的话，以后可以很容易地删除它们）。任何建议都非常感谢！

score 3 · Accepted Answer

去掉 html 代码后，使用collections.Counter

>>> sentence = "Hello world. How are you? Hello"
>>> counts = collections.Counter(sentence.split()) # note that this still counts punctuation. Thus, "Hello," and "Hello" are two different words

如果您没有剥离 html 的方法，请查看lxml以执行此操作

希望这可以帮助

score 2 · Accepted Answer

请参阅http://www.hermetic.ch/wfca/wfca.htm上的 Hermetic Word Frequency Counter 的高级版本，它扫描多个文件并去除 HTML 标记。不是免费的，但可以很好地计算 HTML 文件中的单词。甚至是子文件夹。

python - 本地存储网站的词频计数器

2 回答 2

Related

Reference