问题标签 [crawler4j]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

175 问题

0 投票

2 回答

599 浏览

web-crawler - 仅抓取动态数据

我正在尝试爬取当地新闻报纸的档案并获得预期的结果。我有什么方法可以对爬虫进行编程，以使每个页面上都相同的静态按钮（例如主页、按钮及其页脚）不包含在爬虫中

这是我用来显示爬取数据的代码

web-crawler crawler4j

2013-02-11T18:02:35.540

0 投票

2 回答

561 浏览

java - 有关使用 crawler4j 库在 Java Web crwaler 中进行模式匹配的一些信息

我想使用 Java 实现一个非常简单的网络爬虫，我找到了这个库： crawler4j: http://code.google.com/p/crawler4j/

我需要一个执行以下操作的爬虫：

从一个 URL（由我指定）开始并识别当前页面中是否有特定单词，例如自己的名称或公司名称（这个单词也是由我指定的）

如果找到这个词，当前页面的 URL 必须保存在数据库中。

所以，没有语义分析，只有句法分析（爬虫必须尝试将网页内容与我指定的某些令牌匹配）

我会知道这个令牌研究（查找当前页面中是否包含一个单词）是由WebCrawlercrawler4j 的抽象类实现的功能还是我必须自己实现它

2013-02-21T16:33:22.133

0 投票

1 回答

5027 浏览

java - 为什么 crawler4j 示例会报错？

我正在尝试在 crawler4j 中使用 Basic crawler 示例。我在这里从 crawler4j 网站获取了代码。

以上是示例中爬虫类的代码。

以上是网络爬虫的控制器类。当我尝试从我的 IDE (Intellij) 运行 Controller 类时，我收到以下错误：

是否有一些关于我应该知道的关于在这里找到的 Maven 配置？我必须使用不同的版本吗？

java crawler4j

2013-03-14T00:27:59.050

0 投票

1 回答

592 浏览

java - 什么是 .lck 文件，为什么我不能用缓冲阅读器阅读它？

我正在尝试使用 crawler4j 来抓取网站。我能够按照 crawler4j 网站上的说明进行操作。完成后，它会创建一个包含两个不同 .lck 文件的文件夹，一个 .jdb 文件和一个 .info.0 文件。

我尝试使用我在此答案中提供的代码读取文件以读取文件，但它一直失败。我以前使用过相同的函数来读取文本文件，所以我知道代码有效。

几个月前，我还发现有人问过同样的问题。他们从来没有得到答案。

为什么我不能使用我的代码打开这些 .lck 文件并将其读取到内存中？

java parsing file-io web-crawler crawler4j

2013-03-27T13:32:39.010

0 投票

1 回答

940 浏览

java - crawler4j 总是返回致命的传输错误

这是我添加到 crawler4j 的任何种子所得到的。

这对我来说真的很奇怪。我不知道是什么原因造成的。

java web-crawler crawler4j

2013-05-10T02:42:16.467

0 投票

1 回答

444 浏览

web-crawler - StatisticsDB 在 Crawler4j 开源代码中做了什么？

我正在尝试了解Crawler4j 开源网络爬虫。同时，我有一些疑问，如下所示，

问题：-

StatisticsDB 在 Counters 类中是做什么的，请解释以下代码部分，
/li>

据我了解，它保存了爬取的 URL，这有助于在爬虫崩溃的情况下，然后网络爬虫不需要从头开始。 请您逐行解释上述代码。

2. 我没有找到任何可以向我解释 SleepyCat 的好链接，因为 Crawlers4j 使用 SleepyCat 来存储中间信息。所以请告诉我一些好的资源，我可以从中学习 SleepyCat 的基础知识。（我不知道上面代码中使用的Transaction，Cursor是什么意思）。

请帮帮我。寻找您的友好答复。

web-crawler crawler4j

2013-05-17T12:15:46.287

0 投票

1 回答

7601 浏览

java - 使用 IntelliJ 调试到 Maven 依赖源

我正在 IntelliJ 中调试一个 Maven 项目，并试图弄清楚如何进入我的 pom.xml 中指定的依赖项之一的源代码。具体来说，我的项目依赖于 Crawler4J 我从 Parser.parse() 中看到了一些奇怪的行为，我想逐步通过该方法。我尝试使用源设置本地克隆的 Git 存储库，并通过 Project Structure 下的 Sources 选项附加它，但我仍然无法进入已编译的 Crawler4J 方法。作为一个长期的 C# 开发人员（和相关的 Java 小块），我最喜欢的是 .NET Reflector 在调试时动态反编译的功能，但附加源代码的方法就足够了。

java debugging maven intellij-idea crawler4j

2013-05-27T17:56:37.247

0 投票

1 回答

702 浏览