heritrix - Heritrix：仅忽略一个站点的 robots.txt

Question

我正在使用 Heritrix 3.2.0。

我想从一个站点获取所有内容，包括通常受 robots.txt 保护的页面。

但是，我不想忽略其他网站的 robots.txt 。（不希望 Facebook 或 Google 生我们的气，你知道的）

我试图设置一个覆盖层，非常类似于 3.0/3.1 手册中的那个（在帖子的末尾）

作业构建没有注释，但似乎没有触发覆盖，仍然遵守本地 robots.txt。

那么，我做错了什么？

斯蒂格黑默

<beans>
  ... all the normal default crawler-beans.cxml stuff ...

  <bean id="sheetOverLayManager" autowire="byType"
        class="org.archive.crawler.spring.SheetOverlaysManager">
  </bean>

  <bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
    <property name='surtPrefixes'>
     <list>
       <value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
       </value>
     </list>
   </property>
   <property name='targetSheetNames'>
     <list>
       <value>noRobots</value>
     </list>
   </property>
 </bean>

 <bean id='noRobots' class='org.archive.spring.Sheet'>
   <property name='map'>
     <map>
       <entry key='metadata.robotsPolicyName' value='ignore'/>
     </map>
   </property>
 </bean>
</beans>

score 2 · Accepted Answer

原始海报在这里。与往常一样，键盘和椅子之间存在问题。

事实证明我不明白 SURT 是如何工作的。

新的和改进的配置：

<property name='surtPrefixes'>
  <list>
    <value>http://(no,kommune,trondheim,</value>
    <value>https://(no,kommune,trondheim,</value>
  </list>
</property>

重要的变化是让每个 SURT 的末尾都保持打开状态，因为我实际上想在规则中包含子站点。

我还将两个 SURT 分成两个<value>s。不确定这是否有必要，但至少它更具可读性。

我仍然有问题，但至少我有新的问题！

heritrix - Heritrix：仅忽略一个站点的 robots.txt

1 回答 1

Related

Reference