问题标签 [crawler4j]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-crawler - 仅抓取动态数据
我正在尝试爬取当地新闻报纸的档案并获得预期的结果。我有什么方法可以对爬虫进行编程,以使每个页面上都相同的静态按钮(例如主页、按钮及其页脚)不包含在爬虫中
这是我用来显示爬取数据的代码
java - 有关使用 crawler4j 库在 Java Web crwaler 中进行模式匹配的一些信息
我想使用 Java 实现一个非常简单的网络爬虫,我找到了这个库: crawler4j: http://code.google.com/p/crawler4j/
我需要一个执行以下操作的爬虫:
从一个 URL(由我指定)开始并识别当前页面中是否有特定单词,例如自己的名称或公司名称(这个单词也是由我指定的)
如果找到这个词,当前页面的 URL 必须保存在数据库中。
所以,没有语义分析,只有句法分析(爬虫必须尝试将网页内容与我指定的某些令牌匹配)
我会知道这个令牌研究(查找当前页面中是否包含一个单词)是由WebCrawler
crawler4j 的抽象类实现的功能还是我必须自己实现它
java - 为什么 crawler4j 示例会报错?
我正在尝试在 crawler4j 中使用 Basic crawler 示例。我在这里从 crawler4j 网站获取了代码。
以上是示例中爬虫类的代码。
以上是网络爬虫的控制器类。当我尝试从我的 IDE (Intellij) 运行 Controller 类时,我收到以下错误:
是否有一些关于我应该知道的关于在这里找到的 Maven 配置?我必须使用不同的版本吗?
java - crawler4j 总是返回致命的传输错误
这是我添加到 crawler4j 的任何种子所得到的。
这对我来说真的很奇怪。我不知道是什么原因造成的。
web-crawler - StatisticsDB 在 Crawler4j 开源代码中做了什么?
我正在尝试了解Crawler4j 开源网络爬虫。同时,我有一些疑问,如下所示,
问题:-
StatisticsDB 在 Counters 类中是做什么的,请解释以下代码部分,
/li>
据我了解,它保存了爬取的 URL,这有助于在爬虫崩溃的情况下,然后网络爬虫不需要从头开始。 请您逐行解释上述代码。
2. 我没有找到任何可以向我解释 SleepyCat 的好链接,因为 Crawlers4j 使用 SleepyCat 来存储中间信息。所以请告诉我一些好的资源,我可以从中学习 SleepyCat 的基础知识。(我不知道上面代码中使用的Transaction,Cursor是什么意思)。
请帮帮我。寻找您的友好答复。
java - 使用 IntelliJ 调试到 Maven 依赖源
我正在 IntelliJ 中调试一个 Maven 项目,并试图弄清楚如何进入我的 pom.xml 中指定的依赖项之一的源代码。具体来说,我的项目依赖于 Crawler4J 我从 Parser.parse() 中看到了一些奇怪的行为,我想逐步通过该方法。我尝试使用源设置本地克隆的 Git 存储库,并通过 Project Structure 下的 Sources 选项附加它,但我仍然无法进入已编译的 Crawler4J 方法。作为一个长期的 C# 开发人员(和相关的 Java 小块),我最喜欢的是 .NET Reflector 在调试时动态反编译的功能,但附加源代码的方法就足够了。
java - 如何修复错误“无法从...加载主类清单”
我在 [ https://code.google.com/p/crawler4j/downloads/detail?name=crawler4j-3.5.zip&can=2&q=]上下载了 crawler4j 。
我保存在我的桌面。运行 crawler4j-3.5.jar 后,显示错误:“Failed to load Main-Class manifest from ...” 如何解决?
java - Crawler4j 仅访问种子 URL
我正在使用crawler4j
爬虫网站来提取结构化数据。我已经设置了所有内容,并使用项目主页上示例中给出的默认 URL,一切正常,但是当我放置自己的种子时,应用程序只会访问我给它的 URL。我错过了什么?
crawler4j - crawler4j 使用类 CrawlConfig 编译错误 - 需要 VariableDeclaratorId
代码不会编译。我将 JRE 更改为 1.7。编译器不会在 Eclipse 中突出显示该类,并且 CrawlConfig 在编译器中似乎失败。该类应在 Linux 中从命令行运行。
有任何想法吗?
编译器错误 - 描述资源路径位置类型令牌“crawlStorageFolder”上的语法错误,此令牌后预期的 VariableDeclaratorId zeocrawler.java /zeowebcrawler/src/main/java/com/example 第 95 行 Java 问题