问题标签 [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 crawler4j 抓取 https 页面
几个月来,我们使用 crawler4j 来爬取 https 站点。突然,自上周五以来,我们无法抓取同一个 https 站点。https 协议有什么变化吗?该网站是https://enot.publicprocurement.be/enot-war/home.do
作为测试,随便抢标题:Welkom op het platform e-Notification
任何帮助深表感谢。
java - Quartz scheduler + crawler4J http连接错误
我正在尝试将 Quartz 调度程序与 crawler4j 结合起来。
问题是,当我在 main 方法中执行 C4J 代码时,它运行良好,但在quartz Job execute() 方法中,出现 Http 连接错误。
我们在代理后面工作,但它已经配置了 winthin C4j,我们甚至在 Quartz 中尝试过。
你知道 Quartz 是否可以阻止 Http Connection 吗?
错误堆栈跟踪:
执行()方法:
感谢您的帮助:)
crawler4j - Crawler4j 缺少传出链接?
我正在尝试使用 Crawler4j 抓取 Apache 邮件列表以获取所有存档消息。我提供了一个种子 URL,并试图获取指向其他消息的链接。但是,它似乎没有提取所有链接。
以下是我的种子页面的 HTML ( http://mail-archives.apache.org/mod_mbox/kafka-users/201211.mbox/%3CCAOG_4QZ-yyrcwTpRu-8eu6VoUoM3%3DAo_J8Linhpnc%2B6y7tOcxg%40mail.gmail.com%3E ) :
这些是 Crawler4j 识别的传出 URL。
但是,我感兴趣的 URL 丢失了。
我究竟做错了什么?如何让 Crawler4j 提取我需要的 URL?
java - Crawler4j - 许多 URL 被丢弃/未处理(输出中丢失)
我正在运行 crawler4j 来查找一百万个 URL 的状态(http 响应)代码。我没有设置任何过滤器来过滤掉要处理的 URL。
我得到了 90% 的 URL 的正确响应,但输出中缺少 10%。
它们甚至没有出现在 Webcrawler 扩展类的 handlePageStatusCode() 方法中。可能由于各种问题,它们没有被处理。
是否可以找到那些丢失的 URL 进行重新处理?我们能否改进抓取过程以不遗漏任何 URL?
java - Crawler4j 在 shouldVisit() 和 visit() 方法中显示不同的 URL 名称
我正在使用 crawler4j 来爬取网站。该网站在一些 url 的末尾有某些参数,例如http://www.abcd.com/xyz/?pqrs
当调用此类 url 的 shouldVisit() 方法时,我得到的 webURL 为 http://www.abcd.com/xyz/?pqrs但是当调用同一 url 上的访问方法时,我得到的 URL 为http:// www.abcd.com/xyz/。
最后如何访问带有某些参数的页面?
regex - 用于 url 的 Crawler4j 正则表达式模式
我正在使用 crawler4J,我只想为 url 制作一些模式,但我无法解决该 url 的正则表达式:
我试试看:
和
但它不起作用。
我怎样才能使它成为正则表达式模式?
java - 爬行后如何减少/更改延迟?
有人有使用 Crawler4j 的经验吗?
我按照项目页面中的示例实现了自己的爬虫。爬虫工作正常,爬得很快。唯一的问题是我总是有 20-30 秒的延迟。有没有办法避免等待时间?
java - 使用 Crawler4j 将 Arraylist 打印到 HTML 文件?
该计划的基础知识;根据用户在 Controller (main) 中指定的 PerentUrl 和关键字运行网络爬虫。如果在页面文本中找到关键字,则将 Url 保存到数组列表中;
ArrayList UrlHits = new ArrayList();
爬取完成后,程序将调用 main 中 WriteFile 类的方法来编写一个包含所有 UrlHits 的 html 文件。
除了 f.addUrl 之外的所有内容都可以正常工作,创建一个具有正确名称和目录的 html 文件。但是从 ArrayList 输出到文件的字符串都没有。
}
公共类爬虫扩展 WebCrawler {
}
公共类WriteFile {
}
为代码块之外的类头道歉它有点繁琐。我尝试了一些不同的“for”语句来获取输出数组列表的方法,但它似乎没有。字符串被添加到数组列表中,因为我可以在 main 中使用 for 循环调用它们。但是当我将数组列表传递给方法 addUrl 时,它会出现蹲下。有没有更简单的方法来使用格式化程序和 .format 来使用数组列表?
谢谢你的帮助
java - 仅从 url 收集相关链接
我需要的是从url
. 例如,从http://beechplane.wordpress.com/之类的链接,我需要收集包含实际文章的链接。即,像http://beechplane.wordpress.com/2012/11/07/the-95-confidence-of-nate-silver/,http://beeechplane.wordpress.com/2012/03/06/visualizing 之类的链接-概率轮盘赌/等。
如何在 Java 中获取这些链接?是否可以使用网络爬虫?
web-crawler - 从识别为机器人的静态 IP 爬取
我有个问题。
我的网络爬虫可以在home和university正确运行,即使我需要的页面在 /pgol/ 并且 robots.txt 是这样说的:
但是当我从工作中运行它时,该站点立即将我识别为机器人并将此页面发送给我:
我认为这是由于我的一位同事提出了很多错误的请求,而服务器将我们的 IP 注册为错误的机器人。
我不知道服务器的有效功能是什么,所以我刚才说的可能是错误的。
我正在使用 Java,特别是来自 Google Code的crawler4j
你能给我解释一下情况吗?你能给我一些解决方案吗?