0

我已经从普通爬取中爬取了数据,我想找出每条记录对应的 url。

for record in files:
     print record['WARC-Target-URI']

这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri,还是只为一个 warc 文件路径获取一个目标 uri?

4

1 回答 1

1

您所追求的信息是标题的一部分。尝试:

print record.header['WARC-Target-URI']

于 2017-07-18T12:37:26.660 回答