我正在使用 Heritrix 3.2.0。
我想从一个站点获取所有内容,包括通常受 robots.txt 保护的页面。
但是,我不想忽略其他网站的 robots.txt 。(不希望 Facebook 或 Google 生我们的气,你知道的)
我试图设置一个覆盖层,非常类似于 3.0/3.1 手册中的那个(在帖子的末尾)
作业构建没有注释,但似乎没有触发覆盖,仍然遵守本地 robots.txt。
那么,我做错了什么?
斯蒂格黑默
<beans>
... all the normal default crawler-beans.cxml stuff ...
<bean id="sheetOverLayManager" autowire="byType"
class="org.archive.crawler.spring.SheetOverlaysManager">
</bean>
<bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
<property name='surtPrefixes'>
<list>
<value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
</value>
</list>
</property>
<property name='targetSheetNames'>
<list>
<value>noRobots</value>
</list>
</property>
</bean>
<bean id='noRobots' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
<entry key='metadata.robotsPolicyName' value='ignore'/>
</map>
</property>
</bean>
</beans>