python - 在本地系统python中获取源html

Question

亲爱的，我想获取源页面，但不是在互联网上，而是在本地系统中

example : url=urllib.request.urlopen ('c://1.html')



>>> import urllib.request
>>> url=urllib.request.urlopen ('http://google.com')
>>> page =url.read()
>>> page=page.decode()
>>> page

我的问题是什么？

score 1 · Accepted Answer

from os.path import abspath
with open(abspath('c:/1.html') as fh:
    print(fh.read())

由于url.read()只是按原样为您提供数据，并且.decode()除了将字节数据从套接字转换为传统字符串之外并没有真正做任何事情，只需打印文件内容？

urllib主要（如果不是唯一的话）是接收 HTML 数据的传输器，而不是实际解析内容。所以它所做的只是连接到源，分离标题并为您提供内容。如果您已经在本地将其存储在一个文件中.. 那么urllib对您来说就没有更多用处了。考虑查看 HTML Parsing 库，例如BeautifulSoup。

python - 在本地系统python中获取源html

1 回答 1

Related

Reference