我对 Python 很陌生,我在完成一项基本上是这样的任务时遇到了麻烦:
#逐行读取WARC文件以识别string1。
#找到string1时,将部分字符串作为键添加到字典中。
#然后继续读取文件识别string2,并将string2的一部分作为值添加到之前的key中。
#继续浏览文件并做同样的事情来构建字典。
我无法导入任何内容,因此给我带来了一些麻烦,尤其是添加键,然后将值留空并继续浏览文件以查找要用作值的 string2。
我已经开始考虑将密钥保存到中间变量,然后继续识别值,添加到中间变量并最终构建字典。
def main ():
###open the file
file = open("warc_file.warc", "rb")
filetxt = file.read().decode('ascii','ignore')
filedata = filetxt.split("\r\n")
dictionary = dict()
while line in filedata:
for line in filedata:
if "WARC-Type: response" in line:
break
for line in filedata:
if "WARC-Target-URI: " in line:
urlkey = line.strip("WARC-Target-URI: ")