问题标签 [scrapy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2673 浏览

python - 使用 Python 的“Scrapy”时出错

我在 Python 2.7 上安装了最新版本的 Scrapy(是的,我仍然使用这个版本)并且在运行 Scrapy 的教程脚本时遇到错误。我正在运行的代码是:

错误是:

教程脚本在我的桌面上。会有这种效果吗?我应该把它放在不同的地方吗?

0 投票
2 回答
1290 浏览

python - Scrapy,python,Xpath如何匹配html中的各个项目

我是 Xpath 的新手,试图用以下格式抓取网站:

listed_value 和listed_date 的存在是可选的。

我需要将每个 title_name 与相应的listed_date、listed_value (如果可用)分组,然后将到达记录插入MySQL。

我正在使用scrapy shell,它提供了一些基本示例,例如

上面的代码给了我 title_name 列表和可用的listed_date、listed_value 的列表,但是如何匹配它们?(我们不能按索引,因为格式不是对称的)。

谢谢。

0 投票
2 回答
8775 浏览

python - 仅 Scrapy 正文文本

我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。

希望一些学者可以在这里帮助我从<body>标签中抓取所有文本。

0 投票
1 回答
519 浏览

python - Scrapy 雅虎集团蜘蛛

试图刮一个Y!组和我可以从一页获取数据,仅此而已。我有一些基本规则,但显然它们是不正确的。有人已经解决了这个问题吗?

0 投票
1 回答
1653 浏览

python - Scrapy CrawlSpider 后处理:求平均值

假设我有一个类似于这个例子的爬虫: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item

假设我想获取一些信息,例如每个页面的 ID 总和,或者所有已解析页面的描述中的平均字符数。我该怎么做?

另外,我怎样才能获得特定类别的平均值?

0 投票
1 回答
127 浏览

python - 制定 xpath 查询?

嘿,我有一个 html 页面,其中包含例如以下标签:

现在我使用 python 中的 scrapy 框架编写了一个爬虫,在其中我使用 cxxpath 查询来查找 foruri 标签,因为//@foruri它应该给我foruri标签存在的地方,但问题是它不会产生 http:

所以帮我搞定?

0 投票
6 回答
3720 浏览

python - 用scrapy抓取多个域的最佳方法是什么?

我有大约 10 个奇怪的站点,我想从中获取信息。其中一些是 wordpress 博客,它们遵循相同的 html 结构,尽管具有不同的类。其他的要么是论坛,要么是其他格式的博客。

我喜欢抓取的信息很常见——帖子内容、时间戳、作者、标题和评论。

我的问题是,我是否必须为每个域创建一个单独的蜘蛛?如果没有,我如何创建一个通用蜘蛛,允许我通过从配置文件或类似文件中加载选项来进行抓取?

我想我可以从一个文件中加载 xpath 表达式,该位置可以通过命令行加载,但是在抓取某些域时似乎有些困难,需要我使用正则表达式select(expression_here).re(regex),而有些则不需要。

0 投票
2 回答
755 浏览

python - 用scrapy抓取参数化的url

我有一个使用 python scrapy 运行的蜘蛛,它正在抓取除了带有参数(即&符号)的页面之外的所有页面,例如,http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9_simh_gw_p23_d0_i3?pf_rd_m=A3P5ROKL5A1OLE&pf_rd_s=center-2&pf_rd_r=1NWN2VXCA63R7TDYC3KQ&pf_rd_t=101&pf_rd_p=467128533&pf_rd_i=468294.

错误日志说[scrapy] ERROR: xxx matching query does not exist.

我正在使用CrawlSpider以下内容SgmlLinkExtractor rule

非常感谢您抽出宝贵的时间,并希望有幸提前感谢您。

0 投票
2 回答
968 浏览

python - 从论坛中的线程中提取特定字段

我正在从事一个数据挖掘项目,我需要为此分析论坛主题中的讨论进度。我有兴趣提取发布时间、帖子作者的统计信息(帖子数量、加入日期等)、帖子文本等信息。

但是,在使用标准抓取工具(如 python 中的 Scrapy)时,我需要编写正则表达式来检测页面的 html 源中的这些字段。由于这些标签因论坛类型而异,解决每个论坛的正则表达式已成为一个主要问题。是否有可用的此类正则表达式的标准库,以便可以根据论坛类型使用它们?

或者是否有任何其他技术可以从论坛页面中提取这些字段。

0 投票
1 回答
1949 浏览

python - 如何避免爬虫中的重复

我使用python中的scrapy框架编写了一个爬虫来选择一些链接和元标记。然后它会爬取起始url并将数据以JSON编码格式写入文件。问题是当爬虫运行两三次时使用相同的起始网址,文件中的数据会重复。为了避免这种情况,我在 scrapy 中使用了下载器中间件,即:http ://snippets.scrapy.org/snippets/1/

我所做的是将上面的代码复制并粘贴到我的scrapy项目中的一个文件中,并通过添加以下行在settings.py文件中启用它:

其中“a11ypi.removeDuplicates.IgnoreVisitedItems”是类路径名,最后我进入并修改了我的 items.py 文件并包含以下字段

但这不起作用,并且爬虫在运行两次时仍会产生相同的结果并将其附加到文件中

我对我的 pipelines.py 文件中的文件进行了如下写入:

我的蜘蛛代码如下:

请建议做什么。