我找到了这个主题如何从 heritrix 爬网中排除除 text/html 之外的所有内容?
我已经把 bean 改成了这个
<property name="shouldProcessRule">
<bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
<property name="decision" value="ACCEPT" />
<property name="regex" value="^application/pdf.*"/>
</bean>
</property>
</bean>
但是 heritrix 仍然将每个文件保存到镜像目录。