我正在用 python 编写代码,它执行以下操作: 1) 从 Internet 获取一个 html 文件。2)提取其网址。3) 将这些 url 与搜索键进行比较,然后打开用户想要打开的正确网页。我正在使用以下代码:
def open_page(name):
try:
links = lxml.html.parse('http://www.w3schools.com/html/').xpath("//a/@href")
for url in links:
if re.search(name, url):
self.get_webpage.open('http://www.w3schools.com/html/'+url)
break
except IndexError as e:
pass`
我必须在我的模块中多次调用此方法,这使得打开网页的过程非常缓慢。我尝试检查此方法每一行的执行时间,发现 lxml.html.parse() 大部分时间都在消耗。此外,如果我尝试使用存储在本地系统中的一些 html 文件,这种方法可以快速运行。有什么方法可以在第一次之后从缓存中获取这个网页http://www.w3schools.com/html/的 html 文件?ps 我不想将此 html 文件永久保存在本地系统中,因为在这种情况下,我可能会错过此 html 文件的更新/更改。