问题标签 [crawler4j]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

175 问题

0 投票

3 回答

2406 浏览

java - 使用 crawler4j 抓取 https 页面

几个月来，我们使用 crawler4j 来爬取 https 站点。突然，自上周五以来，我们无法抓取同一个 https 站点。https 协议有什么变化吗？该网站是https://enot.publicprocurement.be/enot-war/home.do

作为测试，随便抢标题：Welkom op het platform e-Notification

任何帮助深表感谢。

2014-01-28T12:19:48.883

0 投票

0 回答

525 浏览

java - Quartz scheduler + crawler4J http连接错误

我正在尝试将 Quartz 调度程序与 crawler4j 结合起来。

问题是，当我在 main 方法中执行 C4J 代码时，它运行良好，但在quartz Job execute() 方法中，出现 Http 连接错误。

我们在代理后面工作，但它已经配置了 winthin C4j，我们甚至在 Quartz 中尝试过。

你知道 Quartz 是否可以阻止 Http Connection 吗？

错误堆栈跟踪：

执行（）方法：

感谢您的帮助:)

java http proxy quartz-scheduler crawler4j

2014-02-05T13:25:56.217

0 投票

2 回答

558 浏览

crawler4j - Crawler4j 缺少传出链接？

我正在尝试使用 Crawler4j 抓取 Apache 邮件列表以获取所有存档消息。我提供了一个种子 URL，并试图获取指向其他消息的链接。但是，它似乎没有提取所有链接。

以下是我的种子页面的 HTML ( http://mail-archives.apache.org/mod_mbox/kafka-users/201211.mbox/%3CCAOG_4QZ-yyrcwTpRu-8eu6VoUoM3%3DAo_J8Linhpnc%2B6y7tOcxg%40mail.gmail.com%3E ) ：

这些是 Crawler4j 识别的传出 URL。

但是，我感兴趣的 URL 丢失了。

我究竟做错了什么？如何让 Crawler4j 提取我需要的 URL？

crawler4j

2014-02-07T08:02:10.557

0 投票

1 回答

539 浏览

java - Crawler4j - 许多 URL 被丢弃/未处理（输出中丢失）

我正在运行 crawler4j 来查找一百万个 URL 的状态（http 响应）代码。我没有设置任何过滤器来过滤掉要处理的 URL。
我得到了 90% 的 URL 的正确响应，但输出中缺少 10%。
它们甚至没有出现在 Webcrawler 扩展类的 handlePageStatusCode() 方法中。可能由于各种问题，它们没有被处理。
是否可以找到那些丢失的 URL 进行重新处理？我们能否改进抓取过程以不遗漏任何 URL？

java web-crawler crawler4j

2014-02-16T11:51:34.267

0 投票

1 回答

344 浏览

java - Crawler4j 在 shouldVisit() 和 visit() 方法中显示不同的 URL 名称

我正在使用 crawler4j 来爬取网站。该网站在一些 url 的末尾有某些参数，例如http://www.abcd.com/xyz/?pqrs

当调用此类 url 的 shouldVisit() 方法时，我得到的 webURL 为 http://www.abcd.com/xyz/?pqrs但是当调用同一 url 上的访问方法时，我得到的 URL 为http:// www.abcd.com/xyz/。

最后如何访问带有某些参数的页面？

java crawler4j

2014-03-02T21:32:40.347

0 投票

1 回答

260 浏览

regex - 用于 url 的 Crawler4j 正则表达式模式

我正在使用 crawler4J，我只想为 url 制作一些模式，但我无法解决该 url 的正则表达式：

我试试看：

和

但它不起作用。

我怎样才能使它成为正则表达式模式？

regex crawler4j

2014-03-07T23:10:53.930

0 投票

1 回答

740 浏览

java - 爬行后如何减少/更改延迟？

有人有使用 Crawler4j 的经验吗？

我按照项目页面中的示例实现了自己的爬虫。爬虫工作正常，爬得很快。唯一的问题是我总是有 20-30 秒的延迟。有没有办法避免等待时间？

java web-crawler crawler4j

2014-03-12T14:47:52.310

0 投票

0 回答

794 浏览

java - 使用 Crawler4j 将 Arraylist 打印到 HTML 文件？

该计划的基础知识；根据用户在 Controller (main) 中指定的 PerentUrl 和关键字运行网络爬虫。如果在页面文本中找到关键字，则将 Url 保存到数组列表中；

ArrayList UrlHits = new ArrayList();

爬取完成后，程序将调用 main 中 WriteFile 类的方法来编写一个包含所有 UrlHits 的 html 文件。

除了 f.addUrl 之外的所有内容都可以正常工作，创建一个具有正确名称和目录的 html 文件。但是从 ArrayList 输出到文件的字符串都没有。

}

公共类爬虫扩展 WebCrawler {

}

公共类WriteFile {

}

为代码块之外的类头道歉它有点繁琐。我尝试了一些不同的“for”语句来获取输出数组列表的方法，但它似乎没有。字符串被添加到数组列表中，因为我可以在 main 中使用 for 循环调用它们。但是当我将数组列表传递给方法 addUrl 时，它会出现蹲下。有没有更简单的方法来使用格式化程序和 .format 来使用数组列表？

谢谢你的帮助

java arraylist crawler4j

2014-03-13T17:35:46.353

0 投票

1 回答

118 浏览

java - 仅从 url 收集相关链接

我需要的是从url. 例如，从http://beechplane.wordpress.com/之类的链接，我需要收集包含实际文章的链接。即，像http://beechplane.wordpress.com/2012/11/07/the-95-confidence-of-nate-silver/，http://beeechplane.wordpress.com/2012/03/06/visualizing 之类的链接-概率轮盘赌/等。

如何在 Java 中获取这些链接？是否可以使用网络爬虫？

java solr web-crawler crawler4j

2014-03-17T10:13:12.880

0 投票

1 回答

1658 浏览

web-crawler - 从识别为机器人的静态 IP 爬取

我有个问题。

我的网络爬虫可以在home和university正确运行，即使我需要的页面在 /pgol/ 并且 robots.txt 是这样说的：

但是当我从工作中运行它时，该站点立即将我识别为机器人并将此页面发送给我：

我认为这是由于我的一位同事提出了很多错误的请求，而服务器将我们的 IP 注册为错误的机器人。

我不知道服务器的有效功能是什么，所以我刚才说的可能是错误的。

我正在使用 Java，特别是来自 Google Code的crawler4j

你能给我解释一下情况吗？你能给我一些解决方案吗？

web-crawler robots.txt crawler4j static-ip-address

2014-03-28T08:58:54.883

1 2 3 4 5 6 7 8 9 10

问题标签 [crawler4j]

Reference