我的朋友问我是否可以编写一个网络抓取脚本来从特定网站收集 pokemon 的数据。
我编写了以下代码来呈现 javascript 并获取一个特定的类来从网站 ( https://www.smogon.com/dex/ss/pokemon/ ) 收集数据。
问题是,当您向下滚动页面时,页面会加载更多条目。有没有办法从这个刮?我是网络抓取的新手,所以我不完全确定这一切是如何运作的。
from requests_html import HTMLSession
def getPokemon(link):
session = HTMLSession()
r = session.get(link)
r.html.render()
for pokemon in r.html.find("div.PokemonAltRow"):
print(pokemon)
quit()
getPokemon('https://www.smogon.com/dex/ss/pokemon/')