java - 如何使用 crawler4j 提取页面上的所有链接？

Question

我正在实现一个网络爬虫，我正在使用 Crawler4j 库。我没有得到网站上的所有链接。我尝试使用 Crawler4j 提取一页上的所有链接，但错过了一些链接。

Crawler4j 版本： crawler4j-3.3

我使用的网址：http://testsite2012.site90.com/frontPage.html

此页面上的链接数：几乎 60 和其中 4-5 是重复的

crawler4j 给出的链接数：23

这是页面上的 URL 列表，这是 Crawler4j 给出的 URL 列表。

我查看了 crawler4j 使用的“HtmlContentHandler.java”文件来提取链接。在此仅提取与“src”和“href”链接相关的链接。

我发现这些文件之间的区别。Crawler4j 缺少与“src”或“href”属性无关且位于“脚本”标签下的链接。这是 crawler4j 没有抓取的链接列表。

如何提取此页面上的所有链接？我需要在 HTML 解析页面上进行字符串操作（例如查找 'http' ）还是应该更改 'HtmlContentHandler.java' 文件的代码？

哪个是最好的方法？

即使我进行字符串操作并提取此页面上的所有链接，但 Crawler4j 正在使用自己爬取的链接来爬取网站，在这种情况下它不会错过一些页面吗？

score 0 · Accepted Answer

0

尝试使用正则表达式来定位链接。

您可以在这里查看示例。

于 2012-07-03T08:59:19.907 回答

1 回答 1