我想从一堆 .html 文件中删除所有内部链接。基本思想是任何以<a href=
链接开头的内容,如果不是以链接开头,则为<a href="http
内部链接。
我正在尝试编写一个小的 Python 脚本来完成此操作。现在每个文件的前半部分都完美地完成了,但它始终在同一个链接上崩溃。我显然检查了拼写错误或缺少</a>
的,但我没有看到任何。如果我重新运行脚本,“问题链接”将被删除,但它</a>
仍然存在。似乎越来越多的链接通过重新运行脚本被删除,但我希望所有内部链接在一次运行中被切断。
有没有人建议我做错了什么?请参阅下面的代码以了解我正在使用的代码。
tList = [r"D:\@work\projects_2013\@websites\pythonforspss\a44\@select-variables-having-pattern-in-names.html"]
for path in tList:
readFil = open(path,"r")
writeFil = open(path[:path.rfind("\\") +1] + "@" + path[path.rfind("\\") + 1:],"w")
flag = 0
for line in readFil:
for ind in range(len(line)):
if flag == 0:
try:
if line[ind:ind + 8].lower() == '<a href=' and line[ind:ind + 13].lower() != '<a href="http':
flag = 1
sLine = line[ind:]
link = sLine[:sLine.find(">") + 1]
line = line.replace(link,"")
print link
except:
pass
if flag == 1:
try:
if line[ind:ind + 4].lower() == '</a>':
flag = 0
line = line.replace('</a>',"")
print "</a>"
except:
pass
writeFil.write(line)
readFil.close()
writeFil.close()