我有以下代码:
import re
from bs4 import BeautifulSoup
f = open('AIDNIndustrySearchAll.txt', 'r')
g = open('AIDNurl.txt', 'w')
t = f.read()
soup = BeautifulSoup(t)
list = []
counter = 0
for link in soup.find_all("a"):
a = link.get('href')
if re.search("V", a) != None:
list.append(a)
counter = counter + 1
new_list = ['http://www.aidn.org.au/{0}'.format(i) for i in list]
output = "\n".join(i for i in new_list)
g.write(output)
print output
print counter
f.close()
g.close()
它基本上是通过一个保存的 HTML 页面并拉出我感兴趣的链接。我是 Python 新手,所以我确信代码很糟糕,但它(几乎)可以工作;)
当前的问题是它返回每个链接的两个副本,而不是一个。我确信这与循环的设置方式有关,但有点卡住了。
我欢迎有关此问题的任何帮助(如果需要,我可以提供更多详细信息 - 例如 HTML 和有关我正在寻找的链接的更多信息)以及任何一般代码改进,以便我可以尽可能多地学习。