我正在尝试为名为 derstandard.at 的奥地利报纸的留言板编写一个网络爬虫程序。我对交互感兴趣,想对用户进行网络分析。我能够检索我想要的所有内容,但是在更改留言板页面时它根本不起作用。
使用 Firefox,我可以通过更改 url 中的一个数字来简单地访问我想要的页面,例如第 5 页
当我尝试从我的 python 脚本中访问它时,我总是得到第 1 页。
首先,我认为这是因为我的用户代理,但我将其更改为我的 firefox 用户代理,仍然总是得到第 1 页。为什么会这样?
这是相关的代码片段:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib
from BeautifulSoup import BeautifulSoup
from urllib import FancyURLopener
class MyOpener(FancyURLopener):
version = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.8; rv:14.0) Gecko/20100101 Firefox/14.0.1'
f_open=MyOpener()
page=BeautifulSoup(f_open.open('http://derstandard.at/1345164506806/Umfrage-FPOe-auf-tiefstem-Stand-seit-mehr-als-zwei-Jahren?seite=5#forumstart'))
打印页