- 我需要解析一个 HTML 页面,获取所有满足我要求的 URL。
现在,我需要解析每个提取的 URL 以获取我想要的数据,如果页面标题匹配某些内容并根据它们的名称将它们保存到多个文件中。我通过以下方式完成了第 1 部分。
pattern=re.compile(r'''class="topline"><A href="(.*?)"''') da = pattern.search(web_page) da = pattern.findall(soup1) col_width = max(len(word) for row in da for word in row) for row in da: if "some string" in row.upper(): bb = "".join(row.ljust(col_width)) print >> links, bb
我真的很感激任何帮助。谢谢你。