我正在尝试从芝加哥交通管理局bustracker网站获取信息。特别是,我想快速输出前两辆公共汽车的到达 ETA。我可以很容易地用 Splinter 做到这一点;但是,我在无头 Raspberry Pi 模型 B 和 Splinter plus pyvirtualdisplay 上运行此脚本会导致大量开销。
类似的东西
from bs4 import BeautifulSoup
import requests
url = 'http://www.ctabustracker.com/bustime/eta/eta.jsp?id=15475'
r = requests.get(url)
s = BeautifulSoup(r.text,'html.parser')
不成功。所有的数据字段都是空的(好吧,有 )。例如,当页面如下所示:
当我使用 Splinter 执行类似搜索时,这个代码片段s.find(id='time1').text
给了我u'\xa0'
而不是“12 分钟”。
我不喜欢 BeautifulSoup/requests;我只想要一些不需要 Splinter/pyvirtualdisplay 开销的东西,因为该项目要求我获得一个简短的字符串列表(例如,对于上图,[['9','104th/Vincennes','1158','12 MINUTES'],['9','95th','1300','13 MINUTES']]
)然后退出。