Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在研究 crawler4j。我发现它使用 BerkeleyDB 作为数据库。我正在使用 mongoDB 开发 Grails 应用程序,并且想知道 crawler4j 在我的应用程序中工作的灵活性。我基本上想将爬取的信息存储在mongodb数据库中。是否可以将 crawler4j 配置为使用 mongoDB 而不是 BerkeleyDB 作为默认数据存储?任何的意见都将会有帮助。谢谢
没有可配置的 dao 层,但您可以对其进行操作。
有3个道类。Counters 类保存总的“计划”和“已处理”页面计数(这仅用于统计)。DocIDServer 类包含用于解析新 url 的 url-id 对。Frontier 类为要抓取的页面保留队列。只需保留方法逻辑和转换块。