我有以下问题。
当我运行这个杂乱无章的外壳时:
scrapy shell "http://en.50partners.fr/Startups/"
我希望检索整个页面,不幸的是,当我运行时,view(response)
我正在检索没有启动部分本身的页面。你有什么想法,如何解决这个问题?
谢谢。
我有以下问题。
当我运行这个杂乱无章的外壳时:
scrapy shell "http://en.50partners.fr/Startups/"
我希望检索整个页面,不幸的是,当我运行时,view(response)
我正在检索没有启动部分本身的页面。你有什么想法,如何解决这个问题?
谢谢。
启动部分是动态加载的。
尝试在关闭 JavaScript 的情况下在您选择的浏览器中打开初始页面,您将获得相同的结果。
现在检查此页面的 HTML 以查看以下内容:
<div class="Folder_page_block startups"
data-children-count="46"
data-children-reload-url="http://en.50partners.fr/fiftyPartners/ajax/folder/67/children/%page%/%limit%/%view%"
data-children-view="line">
这是加载数据的网址。您可能想稍微修改一下 url,去掉“children”之后的所有内容,然后用这个 URL 开始另一个请求。
结果响应不是您可能期望的 HTML。您可能想要import json
、运行json.load(response.text)
和检查结果列表。
玩得开心 :)