我试图从页面源中找到一系列 URL(twitter 链接),然后将它们放入文本文档中的列表中。我遇到的问题是,一旦我 .readlines() urlopen 对象,我总共有 3-4 行,每行包含几十个我需要一个接一个收集的 url。这是我尝试纠正的代码片段:
page = html.readlines()
for line in page:
ind_start = line.find('twitter')
ind_end = line.find('</a>', ind_start+1)
while ('twitter' in line[ind_start:ind_end]):
output.write(line[ind_start:ind_end] + "\n")
ind_start = line.find('twitter', ind_start)
ind_end = line.find('</a>', ind_start + 1)
不幸的是,我无法使用它提取任何网址。有什么建议吗?