问题标签 [crawler4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
599 浏览

web-crawler - 仅抓取动态数据

我正在尝试爬取当地新闻报纸的档案并获得预期的结果。我有什么方法可以对爬虫进行编程,以使每个页面上都相同的静态按钮(例如主页、按钮及其页脚)不包含在爬虫中

这是我用来显示爬取数据的代码

0 投票
2 回答
561 浏览

java - 有关使用 crawler4j 库在 Java Web crwaler 中进行模式匹配的一些信息

我想使用 Java 实现一个非常简单的网络爬虫,我找到了这个库: crawler4j: http://code.google.com/p/crawler4j/

我需要一个执行以下操作的爬虫:

从一个 URL(由我指定)开始并识别当前页面中是否有特定单词,例如自己的名称或公司名称(这个单词也是由我指定的)

如果找到这个词,当前页面的 URL 必须保存在数据库中。

所以,没有语义分析,只有句法分析(爬虫必须尝试将网页内容与我指定的某些令牌匹配)

我会知道这个令牌研究(查找当前页面中是否包含一个单词)是由WebCrawlercrawler4j 的抽象类实现的功能还是我必须自己实现它

0 投票
1 回答
5027 浏览

java - 为什么 crawler4j 示例会报错?

我正在尝试在 crawler4j 中使用 Basic crawler 示例。我在这里从 crawler4j 网站获取了代码。

以上是示例中爬虫类的代码。

以上是网络爬虫的控制器类。当我尝试从我的 IDE (Intellij) 运行 Controller 类时,我收到以下错误:

是否有一些关于我应该知道的关于在这里找到的 Maven 配置?我必须使用不同的版本吗?

0 投票
1 回答
592 浏览

java - 什么是 .lck 文件,为什么我不能用缓冲阅读器阅读它?

我正在尝试使用 crawler4j 来抓取网站。我能够按照 crawler4j 网站上的说明进行操作。完成后,它会创建一个包含两个不同 .lck 文件的文件夹,一个 .jdb 文件和一个 .info.0 文件。

我尝试使用我在答案中提供的代码读取文件以读取文件,但它一直失败。我以前使用过相同的函数来读取文本文件,所以我知道代码有效。

几个月前,我还发现有人问过同样的问题。他们从来没有得到答案。

为什么我不能使用我的代码打开这些 .lck 文件并将其读取到内存中?

0 投票
1 回答
940 浏览

java - crawler4j 总是返回致命的传输错误

这是我添加到 crawler4j 的任何种子所得到的。

这对我来说真的很奇怪。我不知道是什么原因造成的。

0 投票
1 回答
444 浏览

web-crawler - StatisticsDB 在 Crawler4j 开源代码中做了什么?

我正在尝试了解Crawler4j 开源网络爬虫。同时,我有一些疑问,如下所示,

问题:-

  1. StatisticsDB 在 Counters 类中是做什么的,请解释以下代码部分,

    /li>

据我了解,它保存了爬取的 URL,这有助于在爬虫崩溃的情况下,然后网络爬虫不需要从头开始。 请您逐行解释上述代码。

2. 我没有找到任何可以向我解释 SleepyCat 的好链接,因为 Crawlers4j 使用 SleepyCat 来存储中间信息。所以请告诉我一些好的资源,我可以从中学习 SleepyCat 的基础知识。(我不知道上面代码中使用的Transaction,Cursor是什么意思)。

请帮帮我。寻找您的友好答复。

0 投票
1 回答
7601 浏览

java - 使用 IntelliJ 调试到 Maven 依赖源

我正在 IntelliJ 中调试一个 Maven 项目,并试图弄清楚如何进入我的 pom.xml 中指定的依赖项之一的源代码。具体来说,我的项目依赖于 Crawler4J 我从 Parser.parse() 中看到了一些奇怪的行为,我想逐步通过该方法。我尝试使用源设置本地克隆的 Git 存储库,并通过 Project Structure 下的 Sources 选项附加它,但我仍然无法进入已编译的 Crawler4J 方法。作为一个长期的 C# 开发人员(和相关的 Java 小块),我最喜欢的是 .NET Reflector 在调试时动态反编译的功能,但附加源代码的方法就足够了。

0 投票
1 回答
702 浏览

java - 如何修复错误“无法从...加载主类清单”

我在 [ https://code.google.com/p/crawler4j/downloads/detail?name=crawler4j-3.5.zip&can=2&q=]上下载了 crawler4j 。

我保存在我的桌面。运行 crawler4j-3.5.jar 后,显示错误:“Failed to load Main-Class manifest from ...” 如何解决?

0 投票
1 回答
704 浏览

java - Crawler4j 仅访问种子 URL

我正在使用crawler4j爬虫网站来提取结构化数据。我已经设置了所有内容,并使用项目主页上示例中给出的默认 URL,一切正常,但是当我放置自己的种子时,应用程序只会访问我给它的 URL。我错过了什么?

0 投票
2 回答
680 浏览

crawler4j - crawler4j 使用类 CrawlConfig 编译错误 - 需要 VariableDeclaratorId

代码不会编译。我将 JRE 更改为 1.7。编译器不会在 Eclipse 中突出显示该类,并且 CrawlConfig 在编译器中似乎失败。该类应在 Linux 中从命令行运行。

有任何想法吗?

编译器错误 - 描述资源路径位置类型令牌“crawlStorageFolder”上的语法错误,此令牌后预期的 VariableDeclaratorId zeocrawler.java /zeowebcrawler/src/main/java/com/example 第 95 行 Java 问题