java - Java CSS 爬虫

Question

我正在寻找一个能够抓取页面 CSS 的网络爬虫。我不需要任何其他花哨的爬行能力。

我正在尝试通过 Xapian、Nutch 和 Heritrix。它们似乎都有点复杂。如果有人有任何经验或建议，我很想听听。也欢迎提供上述任何平台的可访问教程。

大卫

score 0 · Accepted Answer

我建议使用普通的 HTTPClient 和简单的正则表达式。您可以将响应存储在您自己的文件、数据库或存档中（请参阅 Heritrix）。

它使事情变得简单，而不是使用沉重的爬虫。由于每个域的 CSS 很少，您可以放心地忽略域内的复杂 url。

干杯！

score 0 · Accepted Answer

你是对的，不要使用那些，它们太重了。

按照现场教程进行简单的爬虫。

您需要的唯一更改是在 MyCrawler.java 中：从 FILTERS 模式中删除“css” 在 visit() 方法中，放置一个简单的条件，如下所示：

if (url.contains(".css")) {
    // do what you need with it
}

就是这样——你很好！

2 回答 2