python - 抓取 Flipkart.com 的所有手机

Question

我正在尝试从 www.flipkart.com 抓取所有手机。现在，我想做的是我可以从这里刮掉所有手机。

http://www.flipkart.com/mobiles/pr?p[]=sort%3Dprice_asc&sid=tyy%2C4io&layout=grid

现在，问题是，在这个网站上，我必须按“显示更多结果”才能看到更多结果。但是，我怎样才能使用代码做到这一点？我在 python 中使用 BeautifulSoup 包。

到目前为止我的代码：

import bs4
import re
import urllib2
import sys

link = 'http://www.flipkart.com/mobiles/pr?p[]=sort%3Dprice_asc&sid=tyy%2C4io&layout=grid'
response = urllib2.urlopen(link)
thePage = response.read()
soup = bs4.BeautifulSoup(thePage)
allMobiles = soup.find('div', attrs={'id': 'products'})

我只得到输出的第一页？如何访问其他页面？

score 7 · Accepted Answer

您可以使用 get 参数。常规网址是：

http://www.flipkart.com/mobiles/pr?p[]=sort%3Dprice_asc&sid=tyy%2C4io&layout=grid

点击“更多结果”按钮（或向下滚动）后，将使用 AJAX 加载具有以下 url 的下一页：

http://www.flipkart.com/mobiles/pr?p%5B%5D=sort%3Dprice_asc&sid=tyy%2C4io&layout=grid&start=41&ajax=true

网址由以下部分组成：

路径：http ://www.flipkart.com/mobiles/pr
查询字符串：
- p[] : 排序=price_asc
- sid : tyy,4io
- 布局：网格
- 开始：41
- 阿贾克斯：真

如果您想要所有电话，只需增加“开始”参数。像这样的东西：

item_count = 600
for i in range(0, item_count, 40):
    link = "http://www.flipkart.com/mobiles/pr?p%5B%5D=sort%3Dprice_asc&sid=tyy%2C4io&layout=grid&ajax=true&start=%d" % (i+1)

    // Do something with the link
    print link

享受，Wout

python - 抓取 Flipkart.com 的所有手机

1 回答 1

Related

Reference