问题标签 [crawler4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
175 浏览

java - Java 返回类型与 WebCrawler.visit(Page) 不兼容

我正在使用来自http://code.google.com/p/crawler4j/的一些爬虫代码。

现在,我要做的是从另一个类访问在 MyCrawler 类中找到的每个 URL。

我启动爬虫:

当我尝试使用“return”来获取我的 URL 时,我收到此错误:

它要求我将类型更改为“无效”,但我当然不想这样做。

这是我遇到问题的功能:

我也尝试使用吸气剂,但由于它是“阻塞操作”,它不起作用。我的想法不多了。

0 投票
1 回答
612 浏览

java - Crawler4j 静默停止

在我的应用程序中,我使用 crawler4j。虽然应用程序很大,但我什至用这里给出的示例代码测试了代码:https ://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples /基本的/

问题是,它适用于大多数网站,但是当我将种子 url 添加为:http://indianexpress.com/时,爬虫停止,而我的 eclipse 上没有任何错误消息。我尝试了几次,但它不起作用。我尝试在 shouldVisit 方法中打印 url 和示例文本,如“hello”,但没有打印意味着它甚至没有到达那里。可能是什么问题 ?

编辑 :

我只是想, crawler4j 不适用于任何 wordpress 网站。例如,http://darcyconroy.net/或者您可以查看http://indianexpress.com/next(将 /next 添加到任何 wordpress 站点 url)。可能是什么原因 ?http://indianexpress.com/robots.txt似乎没有写任何可疑的东西。

0 投票
1 回答
180 浏览

java - 在多台计算机上运行 crawler4j | 不同的实例| 根文件夹锁定

我正在尝试使用crawler4j来实现爬虫。它运行良好,直到:

  1. 我只运行它的 1 个副本。
  2. 我连续运行它而无需重新启动。

如果我重新启动爬虫,收集的 url 不是唯一的。这是因为,爬虫锁定了根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时,它会删除根数据文件夹的内容。

是否有可能: ?

  1. 防止根数据文件夹锁定。(所以,我可以一次运行多个爬虫副本。)
  2. 重启后根数据文件夹的内容不会被删除。(这样我就可以在停止后恢复爬虫。)
0 投票
1 回答
280 浏览

java - Crawler4j 抓取 jquery 直播内容

我有一个网站,但在其类别页面上,通过 javascript 加载页面后生成的产品列表。我的爬虫去了它,找不到任何产品。我该如何解决这个问题?

0 投票
1 回答
584 浏览

java - 在 Java 中使用 Selenium 实现 Crawler4j 不起作用

我正在尝试同时使用 Crawler4j 和 Selenium 进行一些网站测试。爬取网页后,Selenium 应该使用从爬虫获取的参数同时开始测试。例如,这将是他应该打开的 URL 或搜索字段的 ID。如果我单独使用 Crawler4j,它工作正常,我可以提取我需要的信息。如果我只使用带有预定义参数(如 URL 和 Id)的 Selenium 进行测试,它也可以正常工作。但是当我将相同的 Selenium 代码放入 Crawler Code 时,我总是会遇到这个异常。我的猜测是这可能是一个威胁问题?如果有人能给我提示或帮助我,那就太好了:

这是我的爬虫代码:

0 投票
3 回答
19599 浏览

java - 使用 java 的 Web 抓取(启用 Ajax/JavaScript 的页面)

我对这个网络爬行很陌生。我正在使用crawler4j来抓取网站。我通过爬取这些网站来收集所需的信息。我的问题是我无法抓取以下网站的内容。http://www.sciencedirect.com/science/article/pii/S1568494612005741。我想从上述网站抓取以下信息(请看随附的屏幕截图)。

在此处输入图像描述

如果您观察随附的屏幕截图,它具有三个名称(以红色框突出显示)。如果您单击其中一个链接,您将看到一个弹出窗口,该弹出窗口包含有关该作者的全部信息。我想抓取该弹出窗口中的信息。

我正在使用以下代码来抓取内容。

我能够从上述链接/站点抓取内容。但它没有我在红框中标记的信息。我认为这些是动态链接。

  • 我的问题是如何从上述链接/网站抓取内容...???
  • 如何从基于 Ajax/JavaScript 的网站中抓取内容......???

请任何人都可以帮助我。

谢谢和问候, 阿马尔

0 投票
1 回答
1731 浏览

jsoup - Groovy 中的爬虫(JSoup VS Crawler4j)

我希望在 Groovy 中开发一个网络爬虫(使用 Grails 框架和 MongoDB 数据库),它能够爬取网站,创建网站 URL 列表及其资源类型、内容、响应时间和所涉及的重定向数量。

我正在讨论 JSoup 与 Crawler4j。我已经阅读了他们基本上所做的事情,但我无法清楚地理解两者之间的区别。任何人都可以建议对于上述功能哪个更好?或者将两者进行比较是完全不正确的?

谢谢。

0 投票
2 回答
1288 浏览

types - 如何使用 JSoup 从网页中获取资源类型?

我正在尝试在 Groovy 中制作一个网络爬虫。我正在寻找从网页中提取资源类型。我需要检查特定网页是否具有以下资源类型:

PDF 文件

JMP 文件

SWF 文件

压缩文件

MP3 文件

图片

电影文件

JSL 文件

我正在使用 crawler4j 进行爬行,使用 JSoup 进行解析。一般来说,我想知道任何方法来获取我将来可能需要的任何资源类型。我在我的 BasicCrawler.groovy 中尝试了以下内容。它只是告诉页面的内容类型,即 text/html 或 text/xml。我需要获取该页面上所有类型的资源。请纠正我哪里出错了:

打印两个 doc id 后,它会抛出错误:ERROR crawler.WebCrawler - Exception while running the visit method. Message: 'unknown protocol: tel' at java.net.URL.<init>(URL.java:592)

0 投票
1 回答
92 浏览

grails - 带有 Grails 应用程序的 Crawler4j 抛出错误

对于有经验的人来说,这可能是一个非常基本和愚蠢的问题。但请帮忙。我正在尝试按照教程在我的 Grails 应用程序中使用 Crawler4j。我知道它的 Java 代码,但我在一个名为 CrawlerController.groovy 的控制器类中使用它。

我添加了 jar 文件,但是当我编写CrawlConfig crawlConfig = new CrawlConfig() 它时,会抛出一个编译器错误,提示“Groovy 无法解析类”。我刷新了依赖项并尝试了一切。可能是因为我是初学者,所以我错过了一些东西。这是我到目前为止所写的,所有导入语句和 CrawlConfig 语句都会引发错误:

`请帮忙。谢谢。

0 投票
1 回答
270 浏览

grails - Crawler4j 计算页面的深度

我正在使用 groovy & grails 和 mongodb 开发网络爬虫有没有办法使用 crawler4j 计算页面的深度?我知道我可以限制我想要抓取的深度,但没有遇到任何建议如何计算页面深度的东西。谢谢。