python - 无法访问真实页面源代码

Question

这不是关于 javascript 修改页面源的某些部分的标准问题之一，这些部分在您右键单击 > 查看页面源后变得隐藏。我的问题不一样。

实际上，当我右键单击 > 查看页面源代码时，我能够看到整个 html 代码，但是当我尝试通过 BeautifulSoup、xml.parser 甚至用 mechanize 打开它时，页面变得有点不同，并且缺少重要内容。

我可以得到这个真正的 html 代码的唯一方法是手动复制/粘贴整个内容并保存为文件。当我使用 python 自动执行此操作时，内容也会发生变化。

该网站本质上是 html 格式，但也看到了一些 javascript、flash 和 ajax 代码。

你们有什么想法可以做什么吗？我知道如果没有真正看到源代码可能很难弄清楚，但我想我最好不要发布我正在抓取的页面网址。

score 1 · Accepted Answer

这通常是由于不同的 Referrer 或 UserAgent 标头，页面向您发送了不同的响应。

例如，尝试通过将标头设置为 Firefox 来设置用户代理

user_agent = "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
headers = { 'User-Agent' : user_agent }

1 回答 1