背景:我正在使用 Scrapy 从http://shop.nordstrom.com/c/mens-tshirts
. 该页面是动态生成的,所以我使用 Scrapy-Splash 来处理 JavaScript。问题是,点击页面底部的“下一步”按钮是进入后续产品页面的唯一途径。如果您复制第 2 页的 url 并将其粘贴到新选项卡中,则该页面上没有产品。
为了解决这个问题,我尝试使用.click()
Selenium 中的功能导航到下一页,并driver.page_source
提取页面的 html。
问题:有没有办法将我提取的 html/javascript 源代码传递给 Splash(在 docker 容器内运行),而不是传入 url?我尝试将 html 保存在本地计算机上并传递文件路径,但这会导致 502 Bad Gateway,因为 Splash 会自动在路径前添加“http://”。
也许有更好的方法可以在这里实现我的目标,如果是这样,我愿意接受任何选择。请记住,该解决方案必须适合可扩展性和云部署。谢谢!