我对 MechanicalSoup 和 webscraping 完全陌生。我一直在努力解析 html 时间表并将其制成 icalendar (ics) 文件以在移动设备上获取它。(我已经成功完成了,耶)。
现在为了让它工作,一旦我选择了我的时间表,我就下载了时间表网站的 html。现在我需要使用 Python 来实际导航到时间表。
到目前为止,这是我的代码(我被卡住了,因为 HTML 太乱了,我不知道该怎么做,而且 MechanicalSoup 的文档还没有那么大):
import argparse
import mechanicalsoup
from getpass import getpass
browser = mechanicalsoup.StatefulBrowser(
soup_config={'features': 'lxml'},
raise_on_404=True,
user_agent='MyBot/0.1: mysite.example.com/bot_info',
)
browser.open("http://keaplan.kea.dk/sws/prodE2017/default.aspx")
browser.select_form(WHAT TO SELECT :D)
在此处查看 HTML :( http://keaplan.kea.dk/sws/prodE2017/default.aspx 我想做以下事情:
td class=“FilterPanel” #go to the table containing this td
div id = pFilter #set value to BYG
div id = pObject #set value to BAKINT-2l
submit (which will redirect to the timetable i need)
并从提交的重定向中下载 html。
非常感谢您的帮助!