0

我找到了这个主题如何从 heritrix 爬网中排除除 text/html 之外的所有内容?

我已经把 bean 改成了这个

 <property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
    <property name="decision" value="ACCEPT" />
    <property name="regex" value="^application/pdf.*"/>
  </bean>
</property>

</bean>

但是 heritrix 仍然将每个文件保存到镜像目录。

4

1 回答 1

0

我相信您在接受规则之上缺少拒绝规则。我有以下工作:

<property name="shouldProcessRule">
  <bean class="org.archive.modules.deciderules.DecideRuleSequence">
    <property name="rules">
      <list>
        <bean class="org.archive.modules.deciderules.RejectDecideRule">
        </bean>
        <bean class="org.archive.modules.deciderules.ContentTypeMatchesRegexDecideRule">
          <property name="decision" value="ACCEPT" />
          <property name="regex" value="^application/pdf.*"/>
        </bean>
      </list>
    </property>
  </bean>
</property>

这会拒绝所有内容,然后接受以下规则中列出的所有内容。

于 2013-07-22T22:05:05.077 回答