java - 用 Java 抓取网站

Question

我要做的是获取 URL 列表并下载每个 URL 的内容（用于索引）。最大的问题是，如果我遇到一个类似于 facebook 事件的链接，它只是重定向到登录页面，我需要能够检测并跳过该 URL。似乎 robots.txt 文件就是为此目的而存在的。我调查了heritrix，但这似乎比我需要的要多。是否有更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站？

（另外，我不需要跟踪其他链接并建立深度索引，我只需要索引列表中的各个页面。）

score 1 · Accepted Answer

你可以参加你感兴趣的课程，即http://crawler.archive.org/xref/org/archive/crawler/datamodel/Robotstxt.html

java - 用 Java 抓取网站

1 回答 1

Related

Reference