我已经下载了一组 html 文件并将它们保存到的文件路径保存在 .txt 文件中。它的每条路径都在一个新行上。我想查看列表中的第一个文件,然后遍历整个列表,打开文件并提取数据,然后再继续下一个文件。
我的代码适用于直接输入的单个路径(对于第一个文件):
path = r'C:\path\to\file.html'
如果我使用以下方法遍历文本文件,则可以使用:
file_list_fp = r'C:\path\to\file_with_pathlist.txt'
with open(file_list_fp, 'r') as file_list:
for filepath in file_list:
pathend = filepath.find('\n')
path = file[:pathend]
q = open(path, 'r').read()
但是当我尝试使用以下任一方法获取单个路径时它失败了:
with open(file_list_fp, 'r') as file_list:
path_n = file_list.readline()
end = path_n.find('\n')
path_bad1 = path_n[:end]
或者:
with open(file_list_fp, 'r') as file_list:
path_bad2 = file_list.readline().split('\n')[0]
有了这两个,我的代码在那之后就退出了。我不知道为什么。任何指针都非常受欢迎。(我在 Windows 上使用 Python 3.3.1。)