我是使用 Python 3.6.4 和 RoboBrowser 0.5.3 的初学者。我保存了一些 HTML 网页,我正在尝试获取页面中的信息。
很可能是错误的,我从beautifulSoup 上的一个类似问题中获得了灵感。beautifulSoup 解决方案对我有用(BeautifulSoup 4.6.0)。
相比之下,基于 roboBrowser 的以下内容似乎不起作用:
from robobrowser import RoboBrowser
br = RoboBrowser(parser='html.parser')
br.open(open("my_file.html"))
有错误:
MissingSchema:无效的 URL “<_io.TextIOWrapper name='my_file.html' mode='r' encoding='UTF-8'>”:未提供架构。也许您的意思是 http://<_io.TextIOWrapper name='my_file.html' mode='r' encoding='UTF-8'>?
我知道代码需要一个基于“http”的网址。我尝试在文件的绝对路径前添加“file://”,但无济于事。
有没有办法与库进行通信,它是一个本地文件,或者这种功能可能不是 roboBrowser 的一部分?