3

我正在使用 Heritrix 3.2.0。

我想从一个站点获取所有内容,包括通常受 robots.txt 保护的页面。

但是,我不想忽略其他网站的 robots.txt 。(不希望 Facebook 或 Google 生我们的气,你知道的)

我试图设置一个覆盖层,非常类似于 3.0/3.1 手册中的那个(在帖子的末尾)

作业构建没有注释,但似乎没有触发覆盖,仍然遵守本地 robots.txt。

那么,我做错了什么?

斯蒂格黑默

<beans>
  ... all the normal default crawler-beans.cxml stuff ...

  <bean id="sheetOverLayManager" autowire="byType"
        class="org.archive.crawler.spring.SheetOverlaysManager">
  </bean>

  <bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
    <property name='surtPrefixes'>
     <list>
       <value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
       </value>
     </list>
   </property>
   <property name='targetSheetNames'>
     <list>
       <value>noRobots</value>
     </list>
   </property>
 </bean>

 <bean id='noRobots' class='org.archive.spring.Sheet'>
   <property name='map'>
     <map>
       <entry key='metadata.robotsPolicyName' value='ignore'/>
     </map>
   </property>
 </bean>
</beans>
4

1 回答 1

2

原始海报在这里。与往常一样,键盘和椅子之间存在问题。

事实证明我不明白 SURT 是如何工作的。

新的和改进的配置:

<property name='surtPrefixes'>
  <list>
    <value>http://(no,kommune,trondheim,</value>
    <value>https://(no,kommune,trondheim,</value>
  </list>
</property>

重要的变化是让每个 SURT 的末尾都保持打开状态,因为我实际上想在规则中包含子站点。

我还将两个 SURT 分成两个<value>s。不确定这是否有必要,但至少它更具可读性。

我仍然有问题,但至少我有新的问题!

于 2015-06-11T10:14:52.230 回答