0

由于 Heritrix 3.x 的开发人员文档在很大程度上已经过时(其中大部分与 Heritrix 1.x 有关,因为大多数类已更改或代码已被大幅重写/重构),任何人都可以指出相关的处理实际网页内容提取的系统的类(或类)?

我想要做的是获取Heritrix即将抓取的网页内容,然后将分类器应用于网页内容?(分析结构特征等)我认为这个功能可能分布在 ContentExtractor 类及其许多子类中,但我想做的是找到我拥有整个网页内容或在一个可读/可解析的流。Heritrix 应用正则表达式的内容(html)在哪里(以查找链接、某些文件类型等)?

4

1 回答 1

1

我建议研究一个自定义 WriterProcessor 我编写了一个自定义 MirrorWriter 来查看传入的数据,并将文件写入不同的位置,以便以后进行后期处理。MirrorWriter 类的代码相当直接并且注释很好。文档在这里:http ://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果您在预处理方面死心塌地,您可以使用扩展 org.archive.modules.extractor.ExtractorHTML 并做一个即时版本。http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

于 2013-07-22T22:12:19.050 回答