我目前正在使用 Heritrix,并且我有一个标准安装(这个:http ://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/ )并且工作正常。
但是现在我想编写并添加我自己的扩展,例如更改应该被抓取的 url 的优先级或只是一个简单的提取器。我可以检查现有提取器的 Java 代码,但如何将其添加到爬虫中?
我试图将我的 java 测试项目导出到一个 jar 文件中,并将这个文件放在 Heritrix 的 lib 文件夹中(其他库所在的位置)。此外,我在工作的 cxml 文件中添加了一个 bean。
但是在开始之后我得到了这个错误:2014-11-07T19:51:40.296Z SEVERE 无法实例化 bean 类 [myModule.TestClass]: No default constructor found; 嵌套异常是 java.lang.NoSuchMethodException: myModule.TestClass.(); 无法创建 bean 'myModule.TestClass#0'
它只是将 extractorHTML 重命名并在一个新项目中并导出到一个 jar 文件。
知道有什么问题吗?我阅读了所有文档,但只有说明如何编写扩展而不是如何添加它?
问候和谢谢你:-)