2

有什么方法可以收集被抓取页面的 URL 吗?作为带有链接的列,或者甚至更好,是否可以将 url 附加到抓取的图像或文本?

4

1 回答 1

2

这与下载爬取数据时获得的源页面 URL不一样吗?

如果您要查找的是您正在访问的所有链接,您可以使用Advanced Crawler Settings中的Save Log功能。这将生成一个 TSV 文件,我建议您在电子表格中查看该文件。这个文件可以让你看到所有转换的链接、失败的链接、被阻止的链接等。

于 2015-07-17T07:21:06.830 回答