1

是否可以获取 crawler4j 中的 URL 是 404 还是 301?

@Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println("URL: " + url);

        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            List<WebURL> links = htmlParseData.getOutgoingUrls();

            System.out.println("Text length: " + text.length());
            System.out.println("Html length: " + html.length());
            System.out.println("Number of outgoing links: " + links.size());
        }
    }

我在爬虫代码中使用它。谁能告诉我怎么做?

4

1 回答 1

2

作为 Crawler4j 版本 3.3(2012 年 2 月发布)- Crawler4j 支持处理获取页面的 http 状态代码。

访问 StatusHandlerCrawlerExample点击。

您还可以使用Jsoup(Java HTML Parser,最好的 DOM、CSS 和 jquery)来解析页面。这里有一个例子——展示了如何从给定的 URL 下载页面并获取页面状态代码。我认为您应该使用 Crawler4j 进行抓取,使用 Jsoup 进行页面获取。

于 2013-02-07T12:44:07.403 回答