2

我正在研究 crawler4j。我发现它使用 BerkeleyDB 作为数据库。我正在使用 mongoDB 开发 Grails 应用程序,并且想知道 crawler4j 在我的应用程序中工作的灵活性。我基本上想将爬取的信息存储在mongodb数据库中。是否可以将 crawler4j 配置为使用 mongoDB 而不是 BerkeleyDB 作为默认数据存储?任何的意见都将会有帮助。谢谢

4

1 回答 1

3

没有可配置的 dao 层,但您可以对其进行操作。

有3个道类。Counters 类保存总的“计划”和“已处理”页面计数(这仅用于统计)。DocIDServer 类包含用于解析新 url 的 url-id 对。Frontier 类为要抓取的页面保留队列。只需保留方法逻辑和转换块。

于 2014-08-10T14:29:52.997 回答