我已经从普通爬取中爬取了数据,我想找出每条记录对应的 url。
for record in files:
print record['WARC-Target-URI']
这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri,还是只为一个 warc 文件路径获取一个目标 uri?
我已经从普通爬取中爬取了数据,我想找出每条记录对应的 url。
for record in files:
print record['WARC-Target-URI']
这会输出一个空列表。我指的是以下链接 https://dmorgan.info/posts/common-crawl-python/。我们是得到与每条记录相对应的目标 uri,还是只为一个 warc 文件路径获取一个目标 uri?