我进入了一个处理网页 HTML 解析的项目。所以,我拿起我的博客(Bloggers Blog - Dynamic Template)并尝试阅读它的内容。不幸的是,我没有查看博客网页的“实际”来源。
这是我观察到的:
我点击
view source
了我博客的一篇随机文章,并试图找到其中的内容。我找不到任何东西。都是 JavaScript。所以,我把网页保存到我的笔记本电脑上并再次检查了来源,这次我找到了内容。
我还检查了
developers tools
在浏览器中使用的源代码,并再次找到了其中的内容。现在,我尝试了python方式
import urllib from bs4 import BeautifulSoup soup = BeautifulSoup( urllib.urlopen("my-webpage-address") ) print soup.prettify()
我什至没有在其中找到 HTML 代码中的内容。
最后,为什么我在case1、4中找不到源代码中的内容。
我应该如何获得实际的 HTML 代码?我希望听到任何可以完成这项工作的 python 库。