0

这不是关于 javascript 修改页面源的某些部分的标准问题之一,这些部分在您右键单击 > 查看页面源后变得隐藏。我的问题不一样。

实际上,当我右键单击 > 查看页面源代码时,我能够看到整个 html 代码,但是当我尝试通过 BeautifulSoup、xml.parser 甚至用 mechanize 打开它时,页面变得有点不同,并且缺少重要内容。

我可以得到这个真正的 html 代码的唯一方法是手动复制/粘贴整个内容并保存为文件。当我使用 python 自动执行此操作时,内容也会发生变化。

该网站本质上是 html 格式,但也看到了一些 javascript、flash 和 ajax 代码。

你们有什么想法可以做什么吗?我知道如果没有真正看到源代码可能很难弄清楚,但我想我最好不要发布我正在抓取的页面网址。

4

1 回答 1

1

这通常是由于不同的 Referrer 或 UserAgent 标头,页面向您发送了不同的响应。

例如,尝试通过将标头设置为 Firefox 来设置用户代理

user_agent = "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"
headers = { 'User-Agent' : user_agent }
于 2013-05-10T14:07:34.507 回答