问题标签 [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在 crawler4j visit() 中获取 URL 的种子
嗨,我如何在 crawler4j 的访问功能中获取它来自页面的种子?到目前为止,我有页面的网址,但我无法弄清楚导致那里的种子是什么。
java - 使用 Crawler4j 抓取网站列表
我在加载链接列表时遇到问题;这些链接应该被controller.addSeed
循环使用。这是代码
我需要爬入该站点并仅检索 rss 页面,但已爬取列表的输出为空。
java - 是否可以忽略 Http Content-Length?
我正在使用Crawler4J收集有关网站的信息。但有时我会收到以下错误:
信息:获取以下内容时出现异常:{someurl} [内容长度分隔的消息正文过早结束(预期:X;收到:Y]
(对我来说)目前还不清楚 X < Y 是否会发生这种情况,反之亦然。
在 fetchContent 的“fetcher.PageFetchResult.java”中抛出异常(我猜是在获取响应标头时)。
所以我的问题是:是否有可能(通常)忽略http内容长度并获取信息?
我已经查找了 crawler4j 问题,但没有类似的问题。
也许 stackoverflow 社区的某个人知道如何解决这个问题。
非常感谢,
久志
编辑
引发此异常的代码(片段):
responseHeaders 和实体为空(默认情况下):
html - 使用 Crawler4j 抓取 PDF
我目前使用 crawler4j 来抓取网站并返回页面 url 和该页面的父页面 url。我正在使用运行良好的基本爬虫,但它没有返回 PDF。我知道它会抓取 PDF,因为我在添加过滤器和显示 pdf 之前检查了它抓取的内容。PDF在进入时似乎消失/跳过
公共无效访问(页面页面){
我不知道它为什么这样做。谁能帮我这个?这将不胜感激!谢谢
crawler4j - 在 crawler4j 中禁用 RobotServer
我需要爬取一个站点以进行一些检查,以了解这些 URL 是否定期可用。为此,我使用 crawler4j。
我的问题来自一些禁用了机器人的<meta name="robots" content="noindex,nofollow" />
网页,由于它拥有的内容,因此在搜索引擎中不索引这些网页是有意义的。
尽管禁用了 RobotServer 的配置,crawler4j 也没有关注这些链接。这必须很容易robotstxtConfig.setEnabled(false);
:
但是所描述的网页仍然没有被探索。我已经阅读了代码,这必须足以禁用机器人指令,但它没有按预期工作。也许我跳过了什么?我已经用版本3.5
和3.6-SNAPSHOT
相同的结果对其进行了测试。
multithreading - Grails:将值从控制器传递到线程
在我的项目中,我的 Grails 控制器的操作是创建一个新线程并在每次执行此操作时调用一个类表单 src/groovy 文件夹。我需要将此操作中的值传递给正在创建的新线程。我怎样才能做到这一点?
更新:我正在我的项目中实现 crawler4j。
我的控制器代码如下:提前致谢。
crawler4j 在调用 BasicCrawler 类时会启动一个新线程。
BasicCrawler 类具有访问功能。我需要将网站的值从 ResourceController 传递给访问函数。
http - 使用 jsoup 检查 jpg 文件的 HTTP 状态
我正在使用 jsoup 获取 url 的 http 状态代码,如下所示:
基本上,我想检查指定的 url 是否返回 200 状态代码,即它是否是一个 html 页面,它是否存在,或者它是否是一个 pdf 文件,它是否存在等等。它不适用于以 .jpg 结尾的 url,因为 jsoup 无法解析 jpg 文件。我将 jsoup 与 crawler4j 结合使用。有没有其他方法可以找到所有网址的 http 状态代码。我的网址以以下扩展名结尾:
css js pdf zip rar tar png gif html
java - 抓取带有特定前缀的网址
我只想抓取具有crawler4j
特定前缀的某些 URL。
例如,如果一个 URL 以http://url1.com/timer/image
它开头是有效的。例如:http://url1.com/timer/image/text.php
。
此 URL 无效:http://test1.com/timer/image
我试图这样实现它:
但是,这似乎行不通,因为爬虫还会访问其他 URL。
有什么建议吗?
我很感激你的回答!
java - 具有对 Windows 的增量爬取支持的 Web 爬虫
我需要一个用java开发的开源网络爬虫,支持增量爬取。
网络爬虫应该很容易定制并与 solr 或 elasticsearch 集成。
它应该是一个活跃的,正在进一步发展,具有更多功能。
Aperture 是一个优秀的爬虫之一,它具有我提到的所有功能,但它不是一个活跃的爬虫,并且由于许可证(如果我将其用于商业目的)我忽略了它们的依赖。
Nutch - 一个网络爬虫,它具有更多支持 hadoop 的功能。但是我浏览了许多网站和教程,没有合适的文档,找到用于在 Windows 中以编程方式自定义它的 api。我可以在 eclipse 中编辑代码,但是在运行 map reduce 作业时会导致很多错误。没有用于 nutch 的 java api 来实现像孔径一样。
Crawl4j 是一个很好的网络爬虫,但它没有增量爬取功能,而且我没有检查许可证问题。
是否有任何其他爬虫具有我提到的所有功能,或者有没有办法使用上述任何一种爬虫来满足我的要求?
有用的答案将不胜感激。