python - 使用 BeautifulSoup 难以解析网页中的链接

翻译自：https://stackoverflow.com/questions/36949674 2016-04-30T01:14:20.803

69 次

我很难解析此网页中的所有链接：https ://recordings.engineering.illinois.edu:8443/ess/portal/section/8a3458dc-ed31-4c93-8e3e-3b64b1f89fe8 我基本上想解析所有的链接，然后只保留您看到的视频文件链接以下载每个讲座。

从 bs4 导入 httplib2 导入 BeautifulSoup、SoupStrainer

http = httplib2.Http()
status, response =      http.request('https://recordings.engineering.illinois.edu:8443/ess/portal/section/8a3458dc-ed31-4c93-8e3e-3b64b1f89fe8')

for link in BeautifulSoup(response, "html.parser",parse_only      =SoupStrainer('a')):
    if link.has_attr('href'):
        print link['href']

以上是我应该解析链接的代码。

然后我将使用类似的东西webbrowser.open_new_tab(url)在每个链接上打开一个新标签（这就是开始下载每个视频所需的全部内容）。

似乎 beautifulsoup 很难获取此特定 URL 的链接。它可以很好地与其他更简单的页面一起使用。关于问题是什么的任何想法？

python - 使用 BeautifulSoup 难以解析网页中的链接

0 回答 0

Related

Reference