html - 如何一次获得完整的网页代码？

问问题 2018-11-05T00:07:47.527

160 次

我正在尝试爬取 Github 的提交页面来做一些分析。页面在这里

但是，有两个标签叫做“js-diff-progressive-container”，每个标签都有很多子标签。见下文

当我使用 urllib2.Request() 和 urllib2.urlopen() 获取html页面并使用beautifulsoup解析html代码时，似乎只能获取第一个“js-diff-progressive-container”标签及其子标签. 对于第二个，我会得到一个标签，它的类是“js-diff-progressive-retry”。解析代码在这里：

for tag in soup.find_all('div', class_='js-diff-progressive-container'):
    print 1
    for div in tag.find_all('div'):
        id = div.get('id')
        if id:
            id = id.split('-')
            print id
            if id[0] == 'diff':
                div2 = div.find_all('div')
                class_div = div2[0]
                if class_div.get('data-path'):
                    changed_class.append(class_div.get('data-path'))

有人告诉我，由于此标签是动态加载的，因此我无法一次获取所有 html 代码。如何获取整个 html 页面代码？

html - 如何一次获得完整的网页代码？

0 回答 0

Related

Reference