我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。
我正在尝试通过 Xapian、Nutch 和 Heritrix。它们似乎都有点复杂。如果有人有任何经验或建议,我很想听听。也欢迎提供上述任何平台的可访问教程。
大卫
我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。
我正在尝试通过 Xapian、Nutch 和 Heritrix。它们似乎都有点复杂。如果有人有任何经验或建议,我很想听听。也欢迎提供上述任何平台的可访问教程。
大卫
我建议使用普通的 HTTPClient 和简单的正则表达式。您可以将响应存储在您自己的文件、数据库或存档中(请参阅 Heritrix)。
它使事情变得简单,而不是使用沉重的爬虫。由于每个域的 CSS 很少,您可以放心地忽略域内的复杂 url。
干杯!
你是对的,不要使用那些,它们太重了。
使用:Crawler4j
按照现场教程进行简单的爬虫。
您需要的唯一更改是在 MyCrawler.java 中: 从 FILTERS 模式中删除“css” 在 visit() 方法中,放置一个简单的条件,如下所示:
if (url.contains(".css")) {
// do what you need with it
}
就是这样——你很好!