2

我正在尝试爬取当地新闻报纸的档案并获得预期的结果。我有什么方法可以对爬虫进行编程,以使每个页面上都相同的静态按钮(例如主页、按钮及其页脚)不包含在爬虫中

这是我用来显示爬取数据的代码

System.out.println(Jsoup.parse(html).body().text_mod());
4

2 回答 2

3

我为您的问题看到了两种解决方案,一种是通用的,一种是临时的。

1 通用

要从网站获取内容,您可以使用诸如样板管道之类的工具删除样板 代码。这将导致获取由库提取的文本。但是,您几乎无法控制锅炉管内发生的事情。

2 临时

您可以使用 Jsoup 删除树中不需要的节点。为此,您将获得由 Jsoup 处理的文档:

Document doc = Jsoup.parse(html):

然后使用 Jsoup 选择器获取要从页面中删除的节点。请参阅此处的文档:Jsoup 选择器。选择节点后,使用 Element 类的 remove 方法。

于 2013-02-14T08:37:19.920 回答
1

shouldVisit 方法呢?您可以根据 URL 模式添加条件,例如:

    @Override
public boolean shouldVisit(WebURL url) {
    String href = url.getURL().toLowerCase();
    return (!href.contains("static/button/url/"));
}

这对我行得通。

于 2013-03-08T10:25:18.313 回答