使用 Beautiful Soup 和 Request Library,我可以抓取 HTML 内容,但不能抓取 JavaScript 或 AJAX 调用加载的内容。
我如何通过我的 Python 脚本来模仿这个?因为当我们滚动页面时会加载 YouTube 评论。我找到了两种方法;一个使用 Selenium,另一个使用 lxml 请求,我有点听不懂。
示例(这是视频):
import requests
from bs4 import BeautifulSoup as soup
url = 'https://www.youtube.com/watch?v=iFPMz36std4'
response = requests.get(url)
page_html = response.content
#print page_html
page_soup=soup(page_html,"html.parser")
print page_soup