0

我目前使用crawler4j作为我选择的网络爬虫,我正在尝试自学网络爬虫是如何工作的。我已经开始爬网,我希望它能够在下面看到的 crawlStorageFolder (/data/crawl/root) 中快速返回爬网数据

public class Controller {

    public static void main(String[] args) throws Exception {


            /*
             * crawlStorageFolder is a folder where intermediate crawl data is
             * stored.
             */
            String crawlStorageFolder =  "/data/crawl/root";


            /*
             * numberOfCrawlers shows the number of concurrent threads that should
             * be initiated for crawling.
             */
            int numberOfCrawlers = 7;



            CrawlConfig config = new CrawlConfig();

            config.setCrawlStorageFolder(crawlStorageFolder);

问题是我能找到的唯一信息是 crawlStorageFolder 位置的两个 .lck 文件和一个 .jdb 文件,我假设是数据的存储位置,但我也无法打开它们。是否有人能帮助我了解如何访问数据,以便我有希望并成功地将其输入数据库并最终将其显示在我的网站上。这将不胜感激。

4

2 回答 2

0

Crawler4j 使用BerkeleyDB来存储爬取信息。请参阅此处的源代码。

从命令行,您可以使用 DB utils 来访问数据。已经在这里涵盖了。

如果您想访问 Java 代码中的数据,您只需导入 BerkeleyDB 库(那里的 Maven 指令)并按照如何打开数据库的教程进行操作

于 2013-03-29T14:23:50.490 回答
0

您不应该使用该文件夹中的数据。您应该将该数据视为爬虫的内部数据。您始终可以在 WebCrawler 的访问方法中转储/写入您的爬取数据。

于 2015-02-10T18:53:33.907 回答