0

我正在编写以下代码以从 warc 文件中获取值。我的目标是找到具有以下内容的网站:

User-Agent: * 
Disallow: /

我希望它只打印具有上述 robots.txt 规则的 URL ^

我的 Python 代码目前只打印一行 URL:

file = 'robots.warc'
num_lines = sum(1 for line in open(file, errors='ignore'))
print('file has', num_lines , 'lines')

with open(file, errors='ignore') as lines:
    for line in lines:
        if line.startswith("WARC-Target-URI:"):
            print(line)

这是一个示例warc文件

谢谢你的帮助!

4

0 回答 0