亲爱的,我想获取源页面,但不是在互联网上,而是在本地系统中
example : url=urllib.request.urlopen ('c://1.html')
>>> import urllib.request
>>> url=urllib.request.urlopen ('http://google.com')
>>> page =url.read()
>>> page=page.decode()
>>> page
我的问题是什么?
from os.path import abspath
with open(abspath('c:/1.html') as fh:
print(fh.read())
由于url.read()
只是按原样为您提供数据,并且.decode()
除了将字节数据从套接字转换为传统字符串之外并没有真正做任何事情,只需打印文件内容?
urllib
主要(如果不是唯一的话)是接收 HTML 数据的传输器,而不是实际解析内容。所以它所做的只是连接到源,分离标题并为您提供内容。如果您已经在本地将其存储在一个文件中.. 那么urllib
对您来说就没有更多用处了。考虑查看 HTML Parsing 库,例如BeautifulSoup。