我正在寻找一种方法来查找域中的所有网页和子域。例如,在 uoregon.edu 域中,我想查找该域和所有子域中的所有网页(例如,cs.uoregon.edu)。
我一直在看nutch,我认为它可以完成这项工作。但是,nutch 似乎会下载整个网页并将其编入索引以供以后搜索。但是,我想要一个只扫描网页以查找属于同一域的 URL 的爬虫。此外,nutch 似乎以序列化格式保存链接数据库。我该如何阅读它?我试过solr,它可以读取nutch收集的数据。但是,我认为我不需要 solr,因为我没有执行任何搜索。我只需要属于给定域的 URL。
谢谢