python - 无法从从普通爬网爬取的 warc 文件中找到 url

Question

我已经从普通爬取中爬取了数据，我想找出每条记录对应的 url。

for record in files:
     print record['WARC-Target-URI']

这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri，还是只为一个 warc 文件路径获取一个目标 uri？

score 1 · Accepted Answer

1

您所追求的信息是标题的一部分。尝试：

print record.header['WARC-Target-URI']

于 2017-07-18T12:37:26.660 回答

1 回答 1