4

很简单,我只是在寻找一种从给定网站或网站部分中提取词频的简单方法。

我也有兴趣计算整个网站中两个给定单词之间的平均距离。距离单位是单词。

我问这个问题是因为坦率地说,我无法找到很多信息来引导执行这样的任务的直觉。我没有任何网络蜘蛛或任何形式的抓取经验。

谢谢(我之前问过这个问题,但它的格式不正确)

4

1 回答 1

1

您可以尝试使用 Scrapy。它是用于抓取网站的非常强大的工具,但可能需要了解正则表达式和 XPath。尝试按照教程

于 2013-06-18T14:10:47.013 回答