我正在尝试使用 crawler4j 来抓取网站。我能够按照 crawler4j 网站上的说明进行操作。完成后,它会创建一个包含两个不同 .lck 文件的文件夹,一个 .jdb 文件和一个 .info.0 文件。
我尝试使用我在此答案中提供的代码读取文件以读取文件,但它一直失败。我以前使用过相同的函数来读取文本文件,所以我知道代码有效。
几个月前,我还发现有人问过同样的问题。他们从来没有得到答案。
为什么我不能使用我的代码打开这些 .lck 文件并将其读取到内存中?
Crawler4j 使用BerkeleyDB来存储爬取信息。请参阅此处的源代码。
从命令行,您可以使用 DB utils 来访问数据。已经在这里涵盖了。
如果您想访问 Java 代码中的数据,您只需导入 BerkeleyDB 库(那里的 Maven 指令)并按照如何打开 DB 的教程进行操作。