我最近在我工作的公司中一直在使用网络爬虫 Heritrix,经过一段时间的搜索和测试,我找不到如何解决我们的需求。
我们希望每天在 cron 中自动运行 heritrix 以抓取网页列表,我们要做的是检查该网站的任何链接是否指向我们域列表中的网站。困难的部分并且找不到方法是将所有跟踪记录到指向我们域的那个链接。
由于作业的日志文件存储了带有一些信息但不包含跟踪的所有链接。一个示例是在对列表中的域的 grep brazzers 完成作业时运行脚本,因此如果它在爬网日志中找到“brazzers”,它应该在另一个日志中显示结果,其中包含从头到尾的整个跟踪:
2015-10-25T20:18:58.369Z 200 91 http://cdn1.ads.brazzers.com/robots.txt XLEP http://cdn1.ads.brazzers.com/text/plain #021 20151025201857643+726 sha1: CPA63O5POU3CVLCH3VDDIMBJCCWRVLPC - -
有可能这样做吗?或其他方式?对这些东西感觉很愚蠢,我的编程不太好
非常感谢您提前
恩里克。