1

我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。

我正在尝试通过 Xapian、Nutch 和 Heritrix。它们似乎都有点复杂。如果有人有任何经验或建议,我很想听听。也欢迎提供上述任何平台的可访问教程。

大卫

4

2 回答 2

0

我建议使用普通的 HTTPClient 和简单的正则表达式。您可以将响应存储在您自己的文件、数据库或存档中(请参阅 Heritrix)。

它使事情变得简单,而不是使用沉重的爬虫。由于每个域的 CSS 很少,您可以放心地忽略域内的复杂 url。

干杯!

于 2011-01-16T20:16:25.827 回答
0

你是对的,不要使用那些,它们太重了。

使用:Crawler4j

按照现场教程进行简单的爬虫。

您需要的唯一更改是在 MyCrawler.java 中: 从 FILTERS 模式中删除“css” 在 vi​​sit() 方法中,放置一个简单的条件,如下所示:

if (url.contains(".css")) {
    // do what you need with it
}

就是这样——你很好!

于 2015-08-24T12:09:39.240 回答