问题标签 [scrapy-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
132 浏览

python - Scrapy Xpath:从 img 节点中提取 @title

我想根据您的投票从此页面@title的主要注释部分中提取: https ://www.fragrantica.com/perfume/Remy-Latour/Cigar-9351.html

我已经获取了 HTML,然后尝试了这行代码,scrapy shell但输出是None

我究竟做错了什么?

0 投票
0 回答
1190 浏览

python - 尝试使用 Scrapy 和 Splash 抓取 JS 页面时出错

但是我一直在shell中遇到这个问题。

这是我的代码:

我已经安装了scrapy-splash,并且我还将这些命令放在了settings.py 中。我的启动服务器也在 http://localhost:8050/上运行。

此外,当我尝试在启动服务器上呈现任何 url 时,我收到另一个错误:

HTTP 错误 400(错误请求)类型:ScriptError -> LUA_ERROR 执行 Lua 脚本时发生错误

Lua错误:[字符串“函数main(splash,args)...”]:2:network3

我在用:

  • 初始版本:3.2

  • 路亚 5.2

0 投票
2 回答
179 浏览

python - 无法在 Win 系统上的 Ubuntu 虚拟机中安装 Scrapy (Shell)

我是 VM 新手,但正在关注 DKL 的《Learning Scrapy》一书。它似乎是通过 Vagrant 和 VirtualBox 建立一个虚拟环境。我想我已经设置好了一切——安装了 ubuntu 12.04.5 LTS 的 Vagrant 和 VirtualBox。

然后我使用 Cmder.exe(在我的项目文件夹 e:...\Project 中)访问 Vagrant

0 投票
1 回答
445 浏览

python - Scrapy 无法从 URL 下载图像

我正在使用scrapy下载图像,但它无法正常工作。我得到了所需文件夹中的 URL,但没有得到图像。

这是我的 items.py:

这是我的蜘蛛代码:

下面是设置代码:

这是我的程序的输出:

0 投票
1 回答
241 浏览

python - __VIEWSTATE、__EVENTVALIDATION、__EVENTTARGET 和 scrapy & splash 的问题

我如何使用 scrapy/splash 处理 __VIEWSTATE、__EVENTVALIDATION、__EVENTTARGET?

我试过了

但这不起作用。

0 投票
2 回答
345 浏览

python - 使用 Scrapy View 时出现 TypeError

我正在尝试使用scrapy view https://www.example.com(不是真正的链接,因为我的工作不允许披露它。对不起。)来调试链接,但后来我收到了这个错误。

如何不出现该错误?

更新:

我在我的一个 Scrapy 项目中遇到了这个错误,但是在使用我的另一个 Scrapy 项目时我没有收到任何错误。这似乎是蜘蛛的问题。

0 投票
1 回答
235 浏览

scrapy - 使用scrapy的shell视图功能时更改默认浏览器

在scrapy shell 上,当我尝试使用该view(response)功能时,它没有打开浏览器,而是打开了Visual Studio Code。如何让它在浏览器上打开?

我读到这webbrowser是用于查看页面的库,我可以设置BROWSER变量来更改其默认值。在 Linux Mint 系统上,我应该将变量更改为哪个值BROWSER才能使view命令打开 firefox?

0 投票
1 回答
182 浏览

python - 每行的 Scrapy xpath 选择器

我正在尝试抓取该页面“ https://myanimelist.net/anime.php?letter=A ”,我找到了我想要的信息,但我想为每一行获取 i 并删除 //n /n

此外,我什至不确定是否能捕捉到页面上的所有动漫。如果有人也可以向我展示一个 css 方法,那就太好了(目的是学习)

0 投票
2 回答
277 浏览

scrapy-spider - 如何选择html标签中的所有href属性包含一个公共类。在 Scrapy 中

我想选择标签中包含的所有href...这是我的html代码

我用过response.css('a.aok-block::attr(href)').extract() ,但结果是:[]

0 投票
0 回答
571 浏览

scrapy - 在scrapy shell上运行splash

我试图抓取一个需要登录的网站。所以我登录了。

直接登录后的页面似乎有很多javascript。

我如何测试splash对scrapy shell的响应?

登录后,如何通过 splash 命令行在下一个 url 上运行 splash 并让它处理 javascript 并给我一个我可以解析的响应?

我不明白我实际上需要做什么来运行启动服务以及它如何与scrapy一起运行......请指出我正确的方向。