“crawler4j”的相关标签问题

0 投票

1 回答

175 浏览

java - Java 返回类型与 WebCrawler.visit(Page) 不兼容

我正在使用来自http://code.google.com/p/crawler4j/的一些爬虫代码。

现在，我要做的是从另一个类访问在 MyCrawler 类中找到的每个 URL。

我启动爬虫：

当我尝试使用“return”来获取我的 URL 时，我收到此错误：

它要求我将类型更改为“无效”，但我当然不想这样做。

这是我遇到问题的功能：

我也尝试使用吸气剂，但由于它是“阻塞操作”，它不起作用。我的想法不多了。

2014-03-28T21:02:15.357

0 投票

1 回答

612 浏览

java - Crawler4j 静默停止

在我的应用程序中，我使用 crawler4j。虽然应用程序很大，但我什至用这里给出的示例代码测试了代码：https ://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples /基本的/

问题是，它适用于大多数网站，但是当我将种子 url 添加为：http://indianexpress.com/时，爬虫停止，而我的 eclipse 上没有任何错误消息。我尝试了几次，但它不起作用。我尝试在 shouldVisit 方法中打印 url 和示例文本，如“hello”，但没有打印意味着它甚至没有到达那里。可能是什么问题？

编辑：

我只是想， crawler4j 不适用于任何 wordpress 网站。例如，http://darcyconroy.net/或者您可以查看http://indianexpress.com/next（将 /next 添加到任何 wordpress 站点 url）。可能是什么原因？http://indianexpress.com/robots.txt似乎没有写任何可疑的东西。

java web-crawler crawler4j

2014-05-01T18:17:30.990

0 投票

1 回答

180 浏览

java - 在多台计算机上运行 crawler4j | 不同的实例| 根文件夹锁定

我正在尝试使用crawler4j来实现爬虫。它运行良好，直到：

我只运行它的 1 个副本。
我连续运行它而无需重新启动。

如果我重新启动爬虫，收集的 url 不是唯一的。这是因为，爬虫锁定了根文件夹（存储中间爬虫数据并作为参数传递）。当爬虫重新启动时，它会删除根数据文件夹的内容。

是否有可能：？

防止根数据文件夹锁定。（所以，我可以一次运行多个爬虫副本。）
重启后根数据文件夹的内容不会被删除。（这样我就可以在停止后恢复爬虫。）

java crawler4j

2014-05-11T08:57:23.747

0 投票

1 回答

280 浏览

java - Crawler4j 抓取 jquery 直播内容

我有一个网站，但在其类别页面上，通过 javascript 加载页面后生成的产品列表。我的爬虫去了它，找不到任何产品。我该如何解决这个问题？

java crawler4j

2014-05-17T16:46:36.877

0 投票

1 回答

584 浏览

java - 在 Java 中使用 Selenium 实现 Crawler4j 不起作用

我正在尝试同时使用 Crawler4j 和 Selenium 进行一些网站测试。爬取网页后，Selenium 应该使用从爬虫获取的参数同时开始测试。例如，这将是他应该打开的 URL 或搜索字段的 ID。如果我单独使用 Crawler4j，它工作正常，我可以提取我需要的信息。如果我只使用带有预定义参数（如 URL 和 Id）的 Selenium 进行测试，它也可以正常工作。但是当我将相同的 Selenium 代码放入 Crawler Code 时，我总是会遇到这个异常。我的猜测是这可能是一个威胁问题？如果有人能给我提示或帮助我，那就太好了：

这是我的爬虫代码：

java selenium automated-tests crawler4j

2014-06-10T11:40:20.617

0 投票

3 回答

19599 浏览

java - 使用 java 的 Web 抓取（启用 Ajax/JavaScript 的页面）

我对这个网络爬行很陌生。我正在使用crawler4j来抓取网站。我通过爬取这些网站来收集所需的信息。我的问题是我无法抓取以下网站的内容。http://www.sciencedirect.com/science/article/pii/S1568494612005741。我想从上述网站抓取以下信息（请看随附的屏幕截图）。

在此处输入图像描述

如果您观察随附的屏幕截图，它具有三个名称（以红色框突出显示）。如果您单击其中一个链接，您将看到一个弹出窗口，该弹出窗口包含有关该作者的全部信息。我想抓取该弹出窗口中的信息。

我正在使用以下代码来抓取内容。

我能够从上述链接/站点抓取内容。但它没有我在红框中标记的信息。我认为这些是动态链接。

我的问题是如何从上述链接/网站抓取内容...？？？
如何从基于 Ajax/JavaScript 的网站中抓取内容......？？？

请任何人都可以帮助我。

谢谢和问候，阿马尔

java web-crawler crawler4j

2014-06-23T11:49:44.850

0 投票

1 回答

1731 浏览

jsoup - Groovy 中的爬虫（JSoup VS Crawler4j）

我希望在 Groovy 中开发一个网络爬虫（使用 Grails 框架和 MongoDB 数据库），它能够爬取网站，创建网站 URL 列表及其资源类型、内容、响应时间和所涉及的重定向数量。

我正在讨论 JSoup 与 Crawler4j。我已经阅读了他们基本上所做的事情，但我无法清楚地理解两者之间的区别。任何人都可以建议对于上述功能哪个更好？或者将两者进行比较是完全不正确的？

谢谢。

jsoup web-crawler crawler4j

2014-06-23T17:45:40.437

0 投票

2 回答

1288 浏览

types - 如何使用 JSoup 从网页中获取资源类型？

我正在尝试在 Groovy 中制作一个网络爬虫。我正在寻找从网页中提取资源类型。我需要检查特定网页是否具有以下资源类型：

PDF 文件

JMP 文件

SWF 文件

压缩文件

MP3 文件

图片

电影文件

JSL 文件

我正在使用 crawler4j 进行爬行，使用 JSoup 进行解析。一般来说，我想知道任何方法来获取我将来可能需要的任何资源类型。我在我的 BasicCrawler.groovy 中尝试了以下内容。它只是告诉页面的内容类型，即 text/html 或 text/xml。我需要获取该页面上所有类型的资源。请纠正我哪里出错了：

打印两个 doc id 后，它会抛出错误：ERROR crawler.WebCrawler - Exception while running the visit method. Message: 'unknown protocol: tel' at java.net.URL.<init>(URL.java:592)

types groovy resources jsoup crawler4j

2014-06-23T19:32:47.313

0 投票

1 回答

92 浏览

grails - 带有 Grails 应用程序的 Crawler4j 抛出错误

对于有经验的人来说，这可能是一个非常基本和愚蠢的问题。但请帮忙。我正在尝试按照本教程在我的 Grails 应用程序中使用 Crawler4j。我知道它的 Java 代码，但我在一个名为 CrawlerController.groovy 的控制器类中使用它。

我添加了 jar 文件，但是当我编写CrawlConfig crawlConfig = new CrawlConfig() 它时，会抛出一个编译器错误，提示“Groovy 无法解析类”。我刷新了依赖项并尝试了一切。可能是因为我是初学者，所以我错过了一些东西。这是我到目前为止所写的，所有导入语句和 CrawlConfig 语句都会引发错误：

`请帮忙。谢谢。

grails groovy crawler4j

2014-06-25T14:16:44.583

0 投票

1 回答

270 浏览

grails - Crawler4j 计算页面的深度

我正在使用 groovy & grails 和 mongodb 开发网络爬虫有没有办法使用 crawler4j 计算页面的深度？我知道我可以限制我想要抓取的深度，但没有遇到任何建议如何计算页面深度的东西。谢谢。

grails groovy depth crawler4j

2014-06-26T15:11:09.853

问题标签 [crawler4j]

Reference