问问题
2325 次
2 回答
0
我假设您使用像 urllib 这样的库来进行抓取。您已经知道网站的内容会动态变化。我还假设动态内容使用服务器端交互。这意味着,使用 javascript (ajax) 浏览器根据选择的值从服务器请求新数据)。
如果是这样,那么您可以尝试在您的网络抓取库中模拟对服务器的 ajax 调用。
- 首先,使用浏览器调试工具找出正在调用的服务器的 url。
- 拆分ajax调用中的参数部分
- 执行相同的调用以查找 select 标记中的选项。
于 2012-09-10T10:06:17.880 回答
0
As @Tichodroma said, when the select is changed, either:
- 以前隐藏在页面上的一些内容变得可见,或者:
- 进行 ajax 调用以检索一些附加内容并将其添加到 DOM
在这两种情况下,都涉及到 JavaScript。看看它,根据发生的情况(案例 #1 或 #2),您应该:
- 刮掉整个页面,因为您想要的所有内容都已经在其中,或者:
- 对通常使用 ajax 调用的文件进行多次调用,以检索您想要的每个值的内容
<select>
于 2012-09-10T10:06:27.577 回答