1

我想用python阅读这个网页

http://www.hm.com/us/subdepartment/LADIES?Nr=4294962278#Nr=4294962278&size=100

在网页源代码中只有 24 个产品 url (http://www.hm.com/us/product.*)

在网页本身(不是来源)中,我看到超过 24 种产品。

我如何才能阅读所有产品而不仅仅是前 24 个?

它可能与css和url中的参数有关,但我对此知之甚少,如果有人能提供帮助,我将不胜感激。

谢谢你。

4

2 回答 2

0

其余的由 javascript 加载,这是客户端,这就是为什么当您查看源代码时除了原始的 24 之外什么都没有,如果您禁用 javascript 然后查看页面,您只会看到第 1 个。

除非有 Python 的 JS 渲染器,否则你可能会不走运?

或者调用与 javascript 相同的页面

于 2012-10-17T08:27:21.217 回答
0

您可以使用 Python 的 Selenium WebDriver 绑定并让 WebDriver 访问相关页面,这将使您能够以编程方式访问页面。这是对带有 Python和文档的WebDriver的一个很好的介绍。

于 2012-10-17T08:40:58.597 回答