cxml - Heritrix：如何从镜像中排除除 pdf 之外的所有内容？

Question

我找到了这个主题如何从 heritrix 爬网中排除除 text/html 之外的所有内容？

我已经把 bean 改成了这个

 <property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
    <property name="decision" value="ACCEPT" />
    <property name="regex" value="^application/pdf.*"/>
  </bean>
</property>

</bean>

但是 heritrix 仍然将每个文件保存到镜像目录。

score 0 · Accepted Answer

我相信您在接受规则之上缺少拒绝规则。我有以下工作：

<property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.DecideRuleSequence">
    <property name="rules">
      <list>
        <bean class="org.archive.modules.deciderules.RejectDecideRule">
        </bean>
        <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
          <property name="decision" value="ACCEPT" />
          <property name="regex" value="^application/pdf.*"/>
        </bean>
      </list>
    </property>
  </bean>
</property>

这会拒绝所有内容，然后接受以下规则中列出的所有内容。

cxml - Heritrix：如何从镜像中排除除 pdf 之外的所有内容？

1 回答 1

Related

Reference