问题标签 [scrapy-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

160 问题

0 投票

2 回答

470 浏览

python - 如何使用scrapy提取具有特定关键字的谷歌新闻？

我是scrapy的新手，试图从下面的给定链接中提取谷歌新闻：

提供了“霍乱”关键字，显示与霍乱关键世界相关的各种新闻的小块我进一步尝试使用scrapy来提取包含单个新闻的每个块。

其中.ts._JGs._KHs._oGs._KGs._jHs::text代表div class="ts _JGs _KHs _oGs _KGs _jHs每个新闻块的。

但它返回无。

python scrapy scrapy-shell

2017-12-20T06:40:44.423

0 投票

1 回答

3550 浏览

python - 如何使用scrapy获取数据？

我正在做一个 Django 项目，我想在主页上提供一些新闻提要。我最近与scrapy进行了交互，当我使用“scarpy shell”运行给定代码时，该代码能够成功获取数据。但是，当我将此代码放入脚本中以自动将新闻源发送到模板时，此代码将不起作用并引发“错误获取未定义”

我试过这个：

使用命令：

这也不起作用，如何将此代码转换为脚本。

错误日志：

python scrapy scrapy-spider scrapy-pipeline scrapy-shell

2017-12-22T08:11:25.433

0 投票

3 回答

5975 浏览

python - 为什么我在scrapy中收到此错误-python3.7无效语法

我在安装scrapy 时遇到了很多麻烦。我已将它安装在我的 Mac 上，但在运行教程时出现此错误：

据我所知，我正在使用最新版本的所有内容。启动并运行它一直很痛苦。嘘。OS High Sierra 10.13.3 python 3.7 installed ipython 我已经更新了我能想到的所有内容。终端线是：

甚至scrapy shell "http://quotes.toscrape.com/random" 尝试过单引号。任何帮助都会很棒！

这是完整的日志：

python python-3.x macos scrapy-shell

2018-02-19T07:25:25.933

0 投票

1 回答

106 浏览

python - 通过命令行调用scrapy的自定义导出器

在尝试解决我的问题（通过特定项目的字段输出有序 Json 数组）时，我收到了一个答案，建议我为该作业创建一个自定义导出器。

我正在创建一个，但是......我发现的所有示例都建议通过管道调用它，但这对我来说似乎有点多余（我已经在个人出口商上定义了自定义行为......我为什么要也可以使用管道进行自定义？）。

我搜索的是一种通过scrapy shell调用自定义导出器的方法。例如，要输出 json，我将使用：

是否存在某种方式来指定我的自定义导出器以类似方式写入文件？我为自定义命令找到了一个实验性功能COMMANDS_MODULE，但我不确定如何将它链接到我的自定义导出器。

python web-scraping scrapy scrapy-pipeline scrapy-shell

2018-02-22T14:02:31.013

0 投票

1 回答

60 浏览

python - 如果在页面上打开了某种链接循环，如何从网站上抓取数据？

这是链接。当您单击第一个链接（“附件和流体”）时，会在同一页面上打开一个包含其他链接的新表格，单击其他链接，您将与表格进行交互。问题是第一个链接与第二个链接具有相同的 xpath，尽管它们都有不同的 url，但是我如何区分两个链接以便提取表。

每当您从上一页移动到此页时，此 xpath 仅生成第一个链接部分：

而这个生成该页面的所有链接也包含其他链接。

第二个 xpath 正在生成带有许多额外链接的所需 url。我正在使用scrapy来做到这一点。有什么方法可以区分允许我提取表格的第一个 url 和第二个 url。

python scrapy scrapy-shell

2018-04-22T10:02:28.497

0 投票

1 回答

182 浏览

scrapy - Scrapy - 下载 response.body 时的不同页面内容

我正在尝试解析页面，例如www.page.com/results?sort=price. 我用这段代码解析它：

输出文件与此代码生成的文件不同：

当我通过下载页面时scrapy shell 'www.page.com/results?sort=price&type=12'，输出类似于file2.txt. 问题是，在 file1.txt 中，没有我需要抓取的数据标签。这两种爬取页面的方式有什么区别，为什么下载的文件不一样？

scrapy scrapy-spider scrapy-shell

2018-05-05T23:08:27.050

0 投票

1 回答

95 浏览

web-scraping - 如何在 Ubuntu 16.04 的 Scrapy 中设置全局设置？

假设设置在“scrapy.settings.default_settings”模块中，但我找不到它。是文本文件还是什么？如何访问它？

web-scraping scrapy scrapy-shell

2018-05-13T15:51:54.210

0 投票

1 回答

225 浏览

scrapy - 无法使用 Scrapy 登录

尝试使用 scrapy.FormRequest.from_response() 但似乎不起作用。

我需要登录才能完全访问产品详细信息登录页面：https ://cosmetics.specialchem.com/login

scrapy web-crawler scrapy-spider scrapy-shell

2018-06-04T10:23:31.853

0 投票

0 回答

139 浏览

python - scrapy shell python网站解决方法是什么

我想运行这个命令：

这没用。你有解决办法吗？Scrapy 已安装。这是错误。

python shell scrapy scrapy-shell

2018-07-06T11:09:03.273

0 投票

1 回答

256 浏览

web-scraping - 抓取网站时数据丢失

我正在尝试废弃一个网站（请参阅代码中的网址）。从网站上，我正在尝试删除所有信息并将数据传输到 json 文件。

从网站中提取信息

我能够从网站上检索大部分信息。

关注： 能够在“提示”下取消数据，预计“2017 年 9 月的提示”无法取消此选项卡下的信息。

发现：

对于“Intimation For September 2017”，该值存储在 span 标签中

对于剩下的月份，这些值存储在字体标签中

如何提取“Intimation For September 2017”的信息？

web-scraping scrapy scrapy-shell

2018-07-21T20:52:37.760

1 2 3 4 5 6 7 8 9 10