crawler4j - 如何在 crawler4j 中获取 url 是 404 还是 301

Question

是否可以获取 crawler4j 中的 URL 是 404 还是 301？

@Override
    public void visit(Page page) {
        String url = page.getWebURL().getURL();
        System.out.println("URL: " + url);

        if (page.getParseData() instanceof HtmlParseData) {
            HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
            String text = htmlParseData.getText();
            String html = htmlParseData.getHtml();
            List<WebURL> links = htmlParseData.getOutgoingUrls();

            System.out.println("Text length: " + text.length());
            System.out.println("Html length: " + html.length());
            System.out.println("Number of outgoing links: " + links.size());
        }
    }

我在爬虫代码中使用它。谁能告诉我怎么做？

score 2 · Accepted Answer

作为 Crawler4j 版本 3.3（2012 年 2 月发布）- Crawler4j 支持处理获取页面的 http 状态代码。

访问 StatusHandlerCrawlerExample点击。

您还可以使用Jsoup（Java HTML Parser，最好的 DOM、CSS 和 jquery）来解析页面。这里有一个例子——展示了如何从给定的 URL 下载页面并获取页面状态代码。我认为您应该使用 Crawler4j 进行抓取，使用 Jsoup 进行页面获取。

crawler4j - 如何在 crawler4j 中获取 url 是 404 还是 301

1 回答 1

Related

Reference