问题标签 [scrapy-shell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用scrapy提取具有特定关键字的谷歌新闻?
我是scrapy的新手,试图从下面的给定链接中提取谷歌新闻:
提供了“霍乱”关键字,显示与霍乱关键世界相关的各种新闻的小块我进一步尝试使用scrapy来提取包含单个新闻的每个块。
其中.ts._JGs._KHs._oGs._KGs._jHs::text
代表div class="ts _JGs _KHs _oGs _KGs _jHs
每个新闻块的。
但它返回无。
python - 如何使用scrapy获取数据?
我正在做一个 Django 项目,我想在主页上提供一些新闻提要。我最近与scrapy进行了交互,当我使用“scarpy shell”运行给定代码时,该代码能够成功获取数据。但是,当我将此代码放入脚本中以自动将新闻源发送到模板时,此代码将不起作用并引发“错误获取未定义”
我试过这个:
使用命令:
这也不起作用,如何将此代码转换为脚本。
错误日志:
python - 为什么我在scrapy中收到此错误-python3.7无效语法
我在安装scrapy 时遇到了很多麻烦。我已将它安装在我的 Mac 上,但在运行教程时出现此错误:
据我所知,我正在使用最新版本的所有内容。启动并运行它一直很痛苦。嘘。OS High Sierra 10.13.3 python 3.7 installed ipython 我已经更新了我能想到的所有内容。终端线是:
甚至scrapy shell "http://quotes.toscrape.com/random"
尝试过单引号。任何帮助都会很棒!
这是完整的日志:
python - 通过命令行调用scrapy的自定义导出器
在尝试解决我的问题(通过特定项目的字段输出有序 Json 数组)时,我收到了一个答案,建议我为该作业创建一个自定义导出器。
我正在创建一个,但是......我发现的所有示例都建议通过管道调用它,但这对我来说似乎有点多余(我已经在个人出口商上定义了自定义行为......我为什么要也可以使用管道进行自定义?)。
我搜索的是一种通过scrapy shell调用自定义导出器的方法。例如,要输出 json,我将使用:
是否存在某种方式来指定我的自定义导出器以类似方式写入文件?我为自定义命令找到了一个实验性功能COMMANDS_MODULE,但我不确定如何将它链接到我的自定义导出器。
python - 如果在页面上打开了某种链接循环,如何从网站上抓取数据?
这是链接。当您单击第一个链接(“附件和流体”)时,会在同一页面上打开一个包含其他链接的新表格,单击其他链接,您将与表格进行交互。问题是第一个链接与第二个链接具有相同的 xpath,尽管它们都有不同的 url,但是我如何区分两个链接以便提取表。
每当您从上一页移动到此页时,此 xpath 仅生成第一个链接部分:
而这个生成该页面的所有链接也包含其他链接。
第二个 xpath 正在生成带有许多额外链接的所需 url。我正在使用scrapy来做到这一点。有什么方法可以区分允许我提取表格的第一个 url 和第二个 url。
scrapy - Scrapy - 下载 response.body 时的不同页面内容
我正在尝试解析页面,例如www.page.com/results?sort=price
. 我用这段代码解析它:
输出文件与此代码生成的文件不同:
当我通过下载页面时scrapy shell 'www.page.com/results?sort=price&type=12'
,输出类似于file2.txt
. 问题是,在 file1.txt 中,没有我需要抓取的数据标签。这两种爬取页面的方式有什么区别,为什么下载的文件不一样?
web-scraping - 如何在 Ubuntu 16.04 的 Scrapy 中设置全局设置?
假设设置在“scrapy.settings.default_settings”模块中,但我找不到它。是文本文件还是什么?如何访问它?
scrapy - 无法使用 Scrapy 登录
尝试使用 scrapy.FormRequest.from_response() 但似乎不起作用。
我需要登录才能完全访问产品详细信息登录页面:https ://cosmetics.specialchem.com/login
python - scrapy shell python网站解决方法是什么
我想运行这个命令:
这没用。你有解决办法吗?Scrapy 已安装。这是错误。
web-scraping - 抓取网站时数据丢失
我正在尝试废弃一个网站(请参阅代码中的网址)。从网站上,我正在尝试删除所有信息并将数据传输到 json 文件。
从网站中提取信息
我能够从网站上检索大部分信息。
关注: 能够在“提示”下取消数据,预计“2017 年 9 月的提示”无法取消此选项卡下的信息。
发现:
对于“Intimation For September 2017”,该值存储在 span 标签中
对于剩下的月份,这些值存储在字体标签中
如何提取“Intimation For September 2017”的信息?