我正在编写以下代码以从 warc 文件中获取值。我的目标是找到具有以下内容的网站:
User-Agent: *
Disallow: /
我希望它只打印具有上述 robots.txt 规则的 URL ^
我的 Python 代码目前只打印一行 URL:
file = 'robots.warc'
num_lines = sum(1 for line in open(file, errors='ignore'))
print('file has', num_lines , 'lines')
with open(file, errors='ignore') as lines:
for line in lines:
if line.startswith("WARC-Target-URI:"):
print(line)
这是一个示例warc文件
谢谢你的帮助!