问题标签 [scrapy-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy Xpath:从 img 节点中提取 @title
我想根据您的投票从此页面@title
的主要注释部分中提取: https ://www.fragrantica.com/perfume/Remy-Latour/Cigar-9351.html
我已经获取了 HTML,然后尝试了这行代码,scrapy shell
但输出是None
:
我究竟做错了什么?
python - 尝试使用 Scrapy 和 Splash 抓取 JS 页面时出错
但是我一直在shell中遇到这个问题。
这是我的代码:
我已经安装了scrapy-splash,并且我还将这些命令放在了settings.py 中。我的启动服务器也在 http://localhost:8050/上运行。
此外,当我尝试在启动服务器上呈现任何 url 时,我收到另一个错误:
HTTP 错误 400(错误请求)类型:ScriptError -> LUA_ERROR 执行 Lua 脚本时发生错误
Lua错误:[字符串“函数main(splash,args)...”]:2:network3
我在用:
初始版本:3.2
路亚 5.2
python - 无法在 Win 系统上的 Ubuntu 虚拟机中安装 Scrapy (Shell)
我是 VM 新手,但正在关注 DKL 的《Learning Scrapy》一书。它似乎是通过 Vagrant 和 VirtualBox 建立一个虚拟环境。我想我已经设置好了一切——安装了 ubuntu 12.04.5 LTS 的 Vagrant 和 VirtualBox。
然后我使用 Cmder.exe(在我的项目文件夹 e:...\Project 中)访问 Vagrant
python - Scrapy 无法从 URL 下载图像
我正在使用scrapy下载图像,但它无法正常工作。我得到了所需文件夹中的 URL,但没有得到图像。
这是我的 items.py:
这是我的蜘蛛代码:
下面是设置代码:
这是我的程序的输出:
python - __VIEWSTATE、__EVENTVALIDATION、__EVENTTARGET 和 scrapy & splash 的问题
我如何使用 scrapy/splash 处理 __VIEWSTATE、__EVENTVALIDATION、__EVENTTARGET?
我试过了
但这不起作用。
python - 使用 Scrapy View 时出现 TypeError
我正在尝试使用scrapy view https://www.example.com
(不是真正的链接,因为我的工作不允许披露它。对不起。)来调试链接,但后来我收到了这个错误。
如何不出现该错误?
更新:
我在我的一个 Scrapy 项目中遇到了这个错误,但是在使用我的另一个 Scrapy 项目时我没有收到任何错误。这似乎是蜘蛛的问题。
scrapy - 使用scrapy的shell视图功能时更改默认浏览器
在scrapy shell 上,当我尝试使用该view(response)
功能时,它没有打开浏览器,而是打开了Visual Studio Code。如何让它在浏览器上打开?
我读到这webbrowser
是用于查看页面的库,我可以设置BROWSER
变量来更改其默认值。在 Linux Mint 系统上,我应该将变量更改为哪个值BROWSER
才能使view
命令打开 firefox?
python - 每行的 Scrapy xpath 选择器
我正在尝试抓取该页面“ https://myanimelist.net/anime.php?letter=A ”,我找到了我想要的信息,但我想为每一行获取 i 并删除 //n /n
此外,我什至不确定是否能捕捉到页面上的所有动漫。如果有人也可以向我展示一个 css 方法,那就太好了(目的是学习)
scrapy-spider - 如何选择html标签中的所有href属性包含一个公共类。在 Scrapy 中
我想选择标签中包含的所有href...这是我的html代码
我用过response.css('a.aok-block::attr(href)').extract()
,但结果是:[]
scrapy - 在scrapy shell上运行splash
我试图抓取一个需要登录的网站。所以我登录了。
直接登录后的页面似乎有很多javascript。
我如何测试splash对scrapy shell的响应?
登录后,如何通过 splash 命令行在下一个 url 上运行 splash 并让它处理 javascript 并给我一个我可以解析的响应?
我不明白我实际上需要做什么来运行启动服务以及它如何与scrapy一起运行......请指出我正确的方向。