问题标签 [crawler4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
167 浏览

java - !过滤器是什么意思?

我最近实现了 Crawler4j,我试图通过逐行分解代码来自学代码。我无法理解下面代码行中的 !FILTERS 对象的含义。

如果有人帮助我理解,将不胜感激!过滤器

0 投票
2 回答
1683 浏览

java - 访问通过网络爬虫存储的 .lck 和 jdb 文件

我目前使用crawler4j作为我选择的网络爬虫,我正在尝试自学网络爬虫是如何工作的。我已经开始爬网,我希望它能够在下面看到的 crawlStorageFolder (/data/crawl/root) 中快速返回爬网数据

问题是我能找到的唯一信息是 crawlStorageFolder 位置的两个 .lck 文件和一个 .jdb 文件,我假设是数据的存储位置,但我也无法打开它们。是否有人能帮助我了解如何访问数据,以便我有希望并成功地将其输入数据库并最终将其显示在我的网站上。这将不胜感激。

0 投票
3 回答
1703 浏览

java - java中错误的树类型

我正在尝试BasicCrawlController在 java 中运行以下代码,但出现一些错误:

错误是:

代码有什么问题?它完全复制自 crawler4j 的网站!

0 投票
1 回答
565 浏览

crawler4j - Crawler4j - 获取异常 java.lang.NoSuchMethodError

我正在尝试通过 eclipse(juno) 设置 crawler4j。当我运行它时,我得到以下异常(即使程序继续运行而没有记录任何内容):

“线程“主”java.lang.NoSuchMethodError 中的异常:com.sleepycat.je.EnvironmentConfig.setAllowCreate(Z)Lcom/sleepycat/je/EnvironmentConfig;在 edu.uci.ics.crawler4j.crawler.CrawlController.(CrawlController.java :90) 在 packCrawler.BasicCrawlController.main(BasicCrawlController.java:81)" 错误?我也遇到同样的错误。当我点击(CrawlController.java:90)”

我可以看到 crawler4j-3.4.jar 中没有为 CrawlController 附加源。所以我无法确定是否有方法“ setAllowCreate”。

有类似的帖子:NoSuchMethodError in crawler4j CrawelController class

但它并没有确切说明问题是如何解决的。有人有什么建议吗?

非常感谢你花时间陪伴。内哈

0 投票
2 回答
2093 浏览

java - 替换 HTML 中的所有 URL

我正在使用crawler4j抓取一些 HTML 文件,我想用自定义链接替换这些页面中的所有链接。目前,我可以使用以下代码获取源 HTML 和所有传出链接的列表:

然而,一个简单的foreach循环和搜索和替换不会让我得到我想要的。问题是 atheWebURL.getURL();将返回绝对 URL,但有时链接是相对的,有时不是。

我想处理所有链接(图像、URL、JavaScript 文件等)。例如我想images/img.gifview.php?url=http://www.domain.com/images/img.gif.

我唯一想到的解决方案是使用有点复杂的方法Regex,但恐怕我会错过一些罕见的情况。这已经完成了吗?是否有图书馆或一些工具来实现这一目标?

0 投票
1 回答
2090 浏览

web-crawler - 如何使用 MyCrawler.java Controller.java 文件运行 crawler4j.jar

我是爬虫新手,我想运行我的第一个爬虫程序。我有三个文件

  1. 爬虫4j.jar
  2. Mycrawler.java
  3. Controller.java 当我在终端输入javac -cp crawler4j-3.1.jar MyCrawler.java Controller.java时出现以下错误:

"

我在哪里犯错了?谢谢

0 投票
2 回答
1331 浏览

java - 使用 crawler4j 下载 js 文件

我正在尝试使用crawler4j下载一些网站。我唯一的问题是,即使我为函数.js中的所有文件返回 true shouldVisit,它们也永远不会被下载。

文件的 URL.js永远不会被打印出来。

0 投票
3 回答
445 浏览

java - 杀死对象创建的线程

我使用 crawler4j 创建了一个自定义爬虫。在我的应用程序中,我创建了很多控制器,一段时间后,系统中的线程数将达到最大值,JVM 将抛出异常。即使我调用ShutDown()控制器并将其设置为nulland call System.gc(),我的应用程序中的线程仍保持打开状态并且应用程序将崩溃。

我使用了jvisualvm.exe(Java VisualVM)并看到我的应用程序在某一时刻达到了931个线程。

有没有办法可以立即杀死由CrawlControllercrawler4j 项目的对象创建的所有线程?(或与此相关的任何其他对象)

0 投票
0 回答
186 浏览

http-headers - 为什么我以编程方式提取的网页与我在浏览器中看到的不同?

我正在使用 crawler4j 从 Google Play 商店(https 页面)中提取一些数据。但是,我检查了我下载的 html 内容,发现它与我在浏览器中看到的页面源略有不同。为什么?是因为谷歌检测到我正在使用机器人客户端(所以我的 http 请求的处理方式不同)?

谁能帮我?非常感谢!

我已经解决了这个问题。感谢所有的帮助:)

0 投票
1 回答
1643 浏览

crawler4j - 如何在 crawler4j 中获取 url 是 404 还是 301

是否可以获取 crawler4j 中的 URL 是 404 还是 301?

我在爬虫代码中使用它。谁能告诉我怎么做?