问题标签 [scrapy-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
470 浏览

python - 如何使用scrapy提取具有特定关键字的谷歌新闻?

我是scrapy的新手,试图从下面的给定链接中提取谷歌新闻:

提供了“霍乱”关键字,显示与霍乱关键世界相关的各种新闻的小块我进一步尝试使用scrapy来提取包含单个新闻的每个块。

其中.ts._JGs._KHs._oGs._KGs._jHs::text代表div class="ts _JGs _KHs _oGs _KGs _jHs每个新闻块的。

但它返回无。

0 投票
1 回答
3550 浏览

python - 如何使用scrapy获取数据?

我正在做一个 Django 项目,我想在主页上提供一些新闻提要。我最近与scrapy进行了交互,当我使用“scarpy shell”运行给定代码时,该代码能够成功获取数据。但是,当我将此代码放入脚本中以自动将新闻源发送到模板时,此代码将不起作用并引发“错误获取未定义”

我试过这个:

使用命令:

这也不起作用,如何将此代码转换为脚本。

错误日志:

0 投票
3 回答
5975 浏览

python - 为什么我在scrapy中收到此错误-python3.7无效语法

我在安装scrapy 时遇到了很多麻烦。我已将它安装在我的 Mac 上,但在运行教程时出现此错误:

据我所知,我正在使用最新版本的所有内容。启动并运行它一直很痛苦。嘘。OS High Sierra 10.13.3 python 3.7 installed ipython 我已经更新了我能想到的所有内容。终端线是:

甚至scrapy shell "http://quotes.toscrape.com/random" 尝试过单引号。任何帮助都会很棒!

这是完整的日志:

0 投票
1 回答
106 浏览

python - 通过命令行调用scrapy的自定义导出器

在尝试解决我的问题(通过特定项目的字段输出有序 Json 数组)时,我收到了一个答案,建议我为该作业创建一个自定义导出器。

我正在创建一个,但是......我发现的所有示例都建议通过管道调用它,但这对我来说似乎有点多余(我已经在个人出口商上定义了自定义行为......我为什么要也可以使用管道进行自定义?)。

我搜索的是一种通过scrapy shell调用自定义导出器的方法。例如,要输出 json,我将使用:

是否存在某种方式来指定我的自定义导出器以类似方式写入文件?我为自定义命令找到了一个实验性功能COMMANDS_MODULE,但我不确定如何将它链接到我的自定义导出器。

0 投票
1 回答
60 浏览

python - 如果在页面上打开了某种链接循环,如何从网站上抓取数据?

这是链接。当您单击第一个链接(“附件和流体”)时,会在同一页面上打开一个包含其他链接的新表格,单击其他链接,您将与表格进行交互。问题是第一个链接与第二个链接具有相同的 xpath,尽管它们都有不同的 url,但是我如何区分两个链接以便提取表。

每当您从上一页移动到此页时,此 xpath 仅生成第一个链接部分:

而这个生成该页面的所有链接也包含其他链接。

第二个 xpath 正在生成带有许多额外链接的所需 url。我正在使用scrapy来做到这一点。有什么方法可以区分允许我提取表格的第一个 url 和第二个 url。

0 投票
1 回答
182 浏览

scrapy - Scrapy - 下载 response.body 时的不同页面内容

我正在尝试解析页面,例如www.page.com/results?sort=price. 我用这段代码解析它:

输出文件与此代码生成的文件不同:

当我通过下载页面时scrapy shell 'www.page.com/results?sort=price&type=12',输出类似于file2.txt. 问题是,在 file1.txt 中,没有我需要抓取的数据标签。这两种爬取页面的方式有什么区别,为什么下载的文件不一样?

0 投票
1 回答
95 浏览

web-scraping - 如何在 Ubuntu 16.04 的 Scrapy 中设置全局设置?

假设设置在“scrapy.settings.default_settings”模块中,但我找不到它。是文本文件还是什么?如何访问它?

0 投票
1 回答
225 浏览

scrapy - 无法使用 Scrapy 登录


尝试使用 scrapy.FormRequest.from_response() 但似乎不起作用。

我需要登录才能完全访问产品详细信息登录页面:https ://cosmetics.specialchem.com/login

0 投票
0 回答
139 浏览

python - scrapy shell python网站解决方法是什么

我想运行这个命令:

这没用。你有解决办法吗?Scrapy 已安装。这是错误。

0 投票
1 回答
256 浏览

web-scraping - 抓取网站时数据丢失

我正在尝试废弃一个网站(请参阅代码中的网址)。从网站上,我正在尝试删除所有信息并将数据传输到 json 文件。

从网站中提取信息

我能够从网站上检索大部分信息。

关注: 能够在“提示”下取消数据,预计“2017 年 9 月的提示”无法取消此选项卡下的信息。

发现:

对于“Intimation For September 2017”,该值存储在 span 标签中

对于剩下的月份,这些值存储在字体标签中

如何提取“Intimation For September 2017”的信息?