这不是关于 javascript 修改页面源的某些部分的标准问题之一,这些部分在您右键单击 > 查看页面源后变得隐藏。我的问题不一样。
实际上,当我右键单击 > 查看页面源代码时,我能够看到整个 html 代码,但是当我尝试通过 BeautifulSoup、xml.parser 甚至用 mechanize 打开它时,页面变得有点不同,并且缺少重要内容。
我可以得到这个真正的 html 代码的唯一方法是手动复制/粘贴整个内容并保存为文件。当我使用 python 自动执行此操作时,内容也会发生变化。
该网站本质上是 html 格式,但也看到了一些 javascript、flash 和 ajax 代码。
你们有什么想法可以做什么吗?我知道如果没有真正看到源代码可能很难弄清楚,但我想我最好不要发布我正在抓取的页面网址。