0

我正在尝试从 kick starter 获取一些数据。怎样才能使用美汤库?

Kick Starter 链接 https://www.kickstarter.com/discover/advanced?woe_id=2347575&sort=magic&seed=2600008&page=7

这些是我需要的以下信息

Crowdfunding goal
Total crowdfunding
Total backers
Length of the campaign (# of days)

这是我当前的代码

import requests
r = requests.get('https://www.kickstarter.com/discover/advanced?woe_id=2347575&sort=magic&seed=2600008&page=1')
from bs4 import BeautifulSoup
soup = BeautifulSoup(r.text, 'html.parser')
results = soup.find_all('div', attrs={'js-react-proj-card grid-col-12 grid-col-6-sm grid-col-4-lg'})
len(results)
4

1 回答 1

0

我会给你一些我知道的提示,希望你能自己做。

  1. 当您滥用服务条款时,爬行有法律问题。

  2. find_all应与“for”语句一起使用。它就像find all在网页上一样工作(Ctrl + f)。

例如

for a in soup.find_all('div', attrs={'js-react-proj-card grid-col-12 grid-col-6-sm grid-col-4-lg'}):
     print (a)

3.links应该是open 'for'语句。- https: //www.kickstarte...seed=2600008&page=1

for语句中重复的粗体数字,以便您可以有序地爬取所有数据

4.you should 链接两次。- 上面的链接,有 pj 的列表。你应该得到这些 pj 的链接。

所以代码的算法喜欢这样。

    for i in range(0,10000):
        url = www.kick.....page=i
        for pj_link in find_all(each pj's link):
            r2 = requests.get(pj_link)
            soup2 = BeautifulSoup(r2.text, 'html.parser')
......        
于 2019-06-10T04:55:57.540 回答