我正在使用 HERITRIX 抓取一个名为 octetfarm.com 的网站。我希望爬虫对 URI(或 URL)执行正则表达式,如果存在字符串“octetfarm”,则爬虫应该接受它。
我制定了两条规则
1 MatchesRegExpDecideRule "ACCEPT" 和正则表达式 " .octetfarm. "
2 拒绝默认
当我在 octetfarm.com(我的非常简单的测试站点)上启动爬虫时,第一页只是一个链接,如下所示:
<a href="http://octetfarm.com/layer1/layer1.html">layer1</a>
为什么爬虫不遵循包含字符串“octetfarm”的简单链接。
这是我在 xml 中的规则
<newObject name="decide-rules" class="org.archive.crawler.deciderules.DecideRuleSequence">
<map name="rules">
<newObject name="rejectByDefault" class="org.archive.crawler.deciderules.RejectDecideRule">
</newObject>
<newObject name="octetfarm" class="org.archive.crawler.deciderules.MatchesRegExpDecideRule">
<string name="decision">ACCEPT</string>
<string name="regexp">*.octetfarm.*</string>
</newObject>
</map>
</newObject>