Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我要做的是获取 URL 列表并下载每个 URL 的内容(用于索引)。最大的问题是,如果我遇到一个类似于 facebook 事件的链接,它只是重定向到登录页面,我需要能够检测并跳过该 URL。似乎 robots.txt 文件就是为此目的而存在的。我调查了heritrix,但这似乎比我需要的要多。是否有更简单的工具可以提供有关 robots.txt 的信息并相应地抓取网站?
(另外,我不需要跟踪其他链接并建立深度索引,我只需要索引列表中的各个页面。)
你可以参加你感兴趣的课程,即http://crawler.archive.org/xref/org/archive/crawler/datamodel/Robotstxt.html