问题标签 [scrapy-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

160 问题

0 投票

1 回答

492 浏览

xpath - Scrapy bot 和 shell 使用相同的 xpath 查询返回不同的结果。为什么？

当我在scrapy bot 和scrapy shell 中执行相同的xpath 查询时，我得到了不同的结果。

注意：我只是想学习scrapy，因此修改了一些教程代码。请跟我慢慢走。

查询：

机器人：

Dmoz项目：

我想要的只是州公共图书馆页面的链接（见网页）。

这是外壳显示的内容（这正是我想要的）：

当蜘蛛运行相同的查询时，我得到了我不想要的其他 href 选择。

几个例子：

据我所知，机器人返回的许多元素/链接不适合xpath 选择器。这是怎么回事？有人可以解释我做错了什么吗？

非常感谢！

xpath scrapy scrapy-spider scrapy-shell

2015-11-10T18:47:45.977

0 投票

1 回答

40 浏览

python-2.7 - scrapy xpath 选择器问题

我设法使用调试蜘蛛找到了我想要隔离的属性，但我不确定它是否正确地合并到我的蜘蛛中。蜘蛛运行时我没有收到明确的错误消息，所以我想我只是错误地输入了选择器。

我正在爬的网站是“ http://www.smiling-moose.com/events/index.php ”我在调试蜘蛛中输入的路径命令是“response.xpath('//div[@class=" show_sec_button"]/text()')"，它会拉出我正在寻找的确切响应。

这是我的蜘蛛：

这是我的 Items.py：

蜘蛛有什么需要改变的吗？如果需要，我可以发布我的命令提示错误。

谢谢

python-2.7 xpath scrapy-spider scrapy-shell

2015-12-07T14:17:28.177

0 投票

2 回答

676 浏览

html - 无法使用 XPath 获取图像 src 链接

我正在使用 Scrapy 抓取本站的产品图片 src 链接：

http://eshop.tesco.com.my/en-GB/Promotion/List?SortBy=Default

由于某些原因，Xpath 不抓取产品图像 src 链接。我尝试通过使用此 Xpath 在 Scrapy Shell 中对其进行测试，从该站点抓取所有图像 src 链接：

返回的结果显示，所有产品的标签中都没有src链接。img

我使用 Chrome Inspector 再次检查，每个产品都有 src 链接。为什么返回结果中没有 src 链接？

请帮忙。

谢谢。

html xpath css-selectors scrapy scrapy-shell

2015-12-11T12:19:07.093

0 投票

2 回答

1924 浏览

python - AttributeError：'module'对象在使用scrapy shell时没有属性'DATABASE'

我正在尝试在我的项目的根目录中运行 scrapy shell，但我不断收到关于某种 DATABASE 设置的模糊错误。我不确定这是否是 SQLAlchemy 的事情……还是我的架构定义有问题？

如果我scrapy shell http://some_website.com从项目路径之外的任何其他目录运行，我没有问题。

尝试启动外壳：

这是回溯：

任何建议将不胜感激。

python scrapy scrapy-shell

2015-12-13T23:30:24.293

0 投票

3 回答

10979 浏览

web-scraping - Scrapy Shell 和 Scrapy Splash

我们一直在使用scrapy-splash中间件将抓取的 HTML 源代码通过在Splashdocker 容器内运行的 javascript 引擎传递。

如果我们想在蜘蛛中使用 Splash，我们配置几个必需的项目设置并产生一个Request指定的特定meta参数：

这按记录工作。但是，我们如何scrapy-splash在Scrapy Shell中使用呢？

web-scraping scrapy scrapy-splash scrapy-shell splash-js-render

2016-02-11T23:56:08.740

0 投票

1 回答

868 浏览

web-scraping - 从 scrapy shell 中列出蜘蛛并运行单个蜘蛛

我想从终端的“scrapy 项目文件夹”中访问scrapy shell。并想列出我项目中所有可用的蜘蛛。我也喜欢运行单个蜘蛛并玩弄响应。

一旦我进入scrapy shell，我会得到以下对象：

我最好的猜测是，我使用“爬虫”对象中的方法来列出可用的蜘蛛。但我没有运气。一旦我列出它，请让我知道如何运行蜘蛛。

web-scraping scrapy scrapy-spider scrapy-shell

2016-02-25T03:42:47.413

0 投票

1 回答

239 浏览

python - 为什么使用scrapy shell打印结果会出现这种不一致的行为？

加载scrapy shell

尝试选择器：

注意：它打印结果。

但现在将该选择器用作 for 语句：

回车两次，什么都没有打印。要在 for 循环中打印结果，您必须将选择器包装在打印函数中。像这样：

为什么？

编辑

如果我做与 Liam 下面的帖子完全相同的事情，我的输出是这样的：

但是添加了打印？

python python-2.7 scrapy scrapy-spider scrapy-shell

2016-03-04T07:19:02.583

0 投票

1 回答

484 浏览

python - 在 Ubuntu 中安装 Scrapy：pkg_resources.DistributionNotFound：attrs

我按照这里的教程安装了scrapy ，安装成功但是一旦我尝试设置一个项目，它就会显示

关于如何解决这个错误的任何想法..？我无法通过谷歌找到任何有用的指针。

python ubuntu scrapy scrapy-spider scrapy-shell

2016-03-28T11:42:18.513

0 投票

1 回答

11032 浏览

scrapy - 为 scrapy shell 请求设置标头

我知道您可以scrapy shell -s USER_AGENT='custom user agent' 'http://www.example.com'更改USER_AGENT，但是如何添加请求标头？

scrapy scrapy-shell

2016-05-03T17:23:15.543

0 投票

1 回答

576 浏览

python-2.7 - 如何在 Scrapy 中使用 Xpath 提取文本？

好吧，似乎我已经尝试了所有方法，但无法弄清楚这里发生了什么。我要抓取的网站的直接链接是http://www.ammofast.com/collections/pistol/products/aguila-25-auto-acp-full-metal-jacket-50-gr-1000-round-案子

我想提取标题和价格。我最好的尝试只是返回一个空的 []

我尝试了一些不同的变化，但都无济于事。我想我还没有完全理解 XPath 结构，但这就是我练习的原因 :) 感谢您的帮助！我也在使用 Scrapy 1.1.0。

python-2.7 xpath scrapy scrapy-shell

2016-06-02T18:37:39.103

1 2 3 4 5 6 7 8 9 10