问题标签 [scrapy-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
492 浏览

xpath - Scrapy bot 和 shell 使用相同的 xpath 查询返回不同的结果。为什么?

当我在scrapy bot 和scrapy shell 中执行相同的xpath 查询时,我得到了不同的结果。

注意:我只是想学习scrapy,因此修改了一些教程代码。请跟我慢慢走。

查询:

机器人:

Dmoz项目:

我想要的只是州公共图书馆页面的链接(见网页)。

这是外壳显示的内容(这正是我想要的):

当蜘蛛运行相同的查询时,我得到了我不想要的其他 href 选择。

几个例子:

据我所知,机器人返回的许多元素/链接不适合xpath 选择器。这是怎么回事?有人可以解释我做错了什么吗?

非常感谢!

0 投票
1 回答
40 浏览

python-2.7 - scrapy xpath 选择器问题

我设法使用调试蜘蛛找到了我想要隔离的属性,但我不确定它是否正确地合并到我的蜘蛛中。蜘蛛运行时我没有收到明确的错误消息,所以我想我只是错误地输入了选择器。

我正在爬的网站是“ http://www.smiling-moose.com/events/index.php ”我在调试蜘蛛中输入的路径命令是“response.xpath('//div[@class=" show_sec_button"]/text()')",它会拉出我正在寻找的确切响应。

这是我的蜘蛛:

这是我的 Items.py:

蜘蛛有什么需要改变的吗?如果需要,我可以发布我的命令提示错误。

谢谢

0 投票
2 回答
676 浏览

html - 无法使用 XPath 获取图像 src 链接

我正在使用 Scrapy 抓取本站的产品图片 src 链接:

http://eshop.tesco.com.my/en-GB/Promotion/List?SortBy=Default

由于某些原因,Xpath 不抓取产品图像 src 链接。我尝试通过使用此 Xpath 在 Scrapy Shell 中对其进行测试,从该站点抓取所有图像 src 链接:

返回的结果显示,所有产品的标签中都没有src链接。img

我使用 Chrome Inspector 再次检查,每个产品都有 src 链接。为什么返回结果中没有 src 链接?

请帮忙。

谢谢。

0 投票
2 回答
1924 浏览

python - AttributeError:'module'对象在使用scrapy shell时没有属性'DATABASE'

我正在尝试在我的项目的根目录中运行 scrapy shell,但我不断收到关于某种 DATABASE 设置的模糊错误。我不确定这是否是 SQLAlchemy 的事情……还是我的架构定义有问题?

如果我scrapy shell http://some_website.com从项目路径之外的任何其他目录运行,我没有问题。

尝试启动外壳:

这是回溯:

任何建议将不胜感激。

0 投票
3 回答
10979 浏览

web-scraping - Scrapy Shell 和 Scrapy Splash

我们一直在使用scrapy-splash中间件将抓取的 HTML 源代码通过在Splashdocker 容器内运行的 javascript 引擎传递。

如果我们想在蜘蛛中使用 Splash,我们配置几个必需的项目设置并产生一个Request指定的特定meta参数

这按记录工作。但是,我们如何scrapy-splashScrapy Shell中使用呢?

0 投票
1 回答
868 浏览

web-scraping - 从 scrapy shell 中列出蜘蛛并运行单个蜘蛛

我想从终端的“scrapy 项目文件夹”中访问scrapy shell。并想列出我项目中所有可用的蜘蛛。我也喜欢运行单个蜘蛛并玩弄响应。

一旦我进入scrapy shell,我会得到以下对象:

我最好的猜测是,我使用“爬虫”对象中的方法来列出可用的蜘蛛。但我没有运气。一旦我列出它,请让我知道如何运行蜘蛛。

0 投票
1 回答
239 浏览

python - 为什么使用scrapy shell打印结果会出现这种不一致的行为?

加载scrapy shell

尝试选择器:

注意:它打印结果。

但现在将该选择器用作 for 语句:

回车两次,什么都没有打印。要在 for 循环中打印结果,您必须将选择器包装在打印函数中。像这样:

为什么?

编辑

如果我做与 Liam 下面的帖子完全相同的事情,我的输出是这样的:

但是添加了打印?

0 投票
1 回答
484 浏览

python - 在 Ubuntu 中安装 Scrapy:pkg_resources.DistributionNotFound:attrs

我按照这里的教程安装了scrapy ,安装成功但是一旦我尝试设置一个项目,它就会显示

关于如何解决这个错误的任何想法..?我无法通过谷歌找到任何有用的指针。

0 投票
1 回答
11032 浏览

scrapy - 为 scrapy shell 请求设置标头

我知道您可以scrapy shell -s USER_AGENT='custom user agent' 'http://www.example.com'更改USER_AGENT,但是如何添加请求标头?

0 投票
1 回答
576 浏览

python-2.7 - 如何在 Scrapy 中使用 Xpath 提取文本?

好吧,似乎我已经尝试了所有方法,但无法弄清楚这里发生了什么。我要抓取的网站的直接链接是http://www.ammofast.com/collections/pistol/products/aguila-25-auto-acp-full-metal-jacket-50-gr-1000-round-案子

我想提取标题和价格。我最好的尝试只是返回一个空的 []

我尝试了一些不同的变化,但都无济于事。我想我还没有完全理解 XPath 结构,但这就是我练习的原因 :) 感谢您的帮助!我也在使用 Scrapy 1.1.0。