我是网络抓取的新手,在尝试无限滚动抓取网站时遇到了一些问题。我看了一些其他问题,但我找不到答案,所以我希望有人能在这里帮助我。
我正在网站http://www.aastocks.com/tc/stocks/analysis/stock-aafn/00001/0/all/上工作。我有以下(非常基本的)一段代码,我可以在第一页上找到每一篇文章(20 个条目)。
def parse(self, response):
# collect all article links
news = response.xpath("//div[starts-with(@class,'newshead4')]//a//text()").extract()
# visit each news link and gather news info
for n in news:
url = urljoin(response.url, n)
yield scrapy.Request(url, callback=self.parse_news)
但是,我不知道如何转到下一页。我在线阅读了一些教程,例如转到 Inspect -> Network 并在滚动后观察请求 URL,它返回http://www.aastocks.com/tc/resources/datafeed/getmorenews.ashx?cat=all&newstime=905169272&newsid=NOW.895783&period=0&key=&symbol=00001了我找不到分页或其他模式的指示以帮助我转到下一页。当我将此链接复制到新选项卡时,我会看到一个带有下一页新闻的 json 文档,但没有带有它的 url。在这种情况下,我该如何解决?非常感谢!