我想使用 Java 实现一个非常简单的网络爬虫,我找到了这个库: crawler4j: http://code.google.com/p/crawler4j/
我需要一个执行以下操作的爬虫:
从一个 URL(由我指定)开始并识别当前页面中是否有特定单词,例如自己的名称或公司名称(这个单词也是由我指定的)
如果找到这个词,当前页面的 URL 必须保存在数据库中。
所以,没有语义分析,只有句法分析(爬虫必须尝试将网页内容与我指定的某些令牌匹配)
我会知道这个令牌研究(查找当前页面中是否包含一个单词)是由WebCrawler
crawler4j 的抽象类实现的功能还是我必须自己实现它