0

我正在尝试阅读网页的来源,但不知何故我没有找到正确的来源。

在浏览器中输入 url 并用 python 读取相同的 url 会返回不同的结果。我猜那是因为浏览器中正在运行一个脚本。但我似乎无法理解哪个脚本。

我的目标是获取我打开的页面的来源,输入以下网址:

http://www.topshop.com/webapp/wcs/stores/servlet/ProductDisplay?beginIndex=1&viewAllFlag=&catalogId=33057&storeId=12556&productId=10366631&langId=-1&sort_field=Relevance&categoryId=208523&parent_categoryId=203984&pageSize=20

打印出来的 HTML 源代码不是我输入的 url,而是父页面的源代码。

我的python脚本:

item_url = 'http://www.topshop.com/webapp/wcs/stores/servlet/ProductDisplay?beginIndex=1&viewAllFlag=&catalogId=33057&storeId=12556&productId=10366631&langId=-1&sort_field=Relevance&categoryId=208523&parent_categoryId=203984&pageSize=20'
product_url = urllib.urlopen(item_url)
product_s = product_url.read()
print product_s

如何获取源代码(产品详情)?

4

0 回答 0