mongodb - Crawler4j 与 mongoDB

Question

我正在研究 crawler4j。我发现它使用 BerkeleyDB 作为数据库。我正在使用 mongoDB 开发 Grails 应用程序，并且想知道 crawler4j 在我的应用程序中工作的灵活性。我基本上想将爬取的信息存储在mongodb数据库中。是否可以将 crawler4j 配置为使用 mongoDB 而不是 BerkeleyDB 作为默认数据存储？任何的意见都将会有帮助。谢谢

score 3 · Accepted Answer

没有可配置的 dao 层，但您可以对其进行操作。

有3个道类。Counters 类保存总的“计划”和“已处理”页面计数（这仅用于统计）。DocIDServer 类包含用于解析新 url 的 url-id 对。Frontier 类为要抓取的页面保留队列。只需保留方法逻辑和转换块。

mongodb - Crawler4j 与 mongoDB

1 回答 1

Related

Reference