问题标签 [scrapy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Python 的“Scrapy”时出错
我在 Python 2.7 上安装了最新版本的 Scrapy(是的,我仍然使用这个版本)并且在运行 Scrapy 的教程脚本时遇到错误。我正在运行的代码是:
错误是:
教程脚本在我的桌面上。会有这种效果吗?我应该把它放在不同的地方吗?
python - Scrapy,python,Xpath如何匹配html中的各个项目
我是 Xpath 的新手,试图用以下格式抓取网站:
listed_value 和listed_date 的存在是可选的。
我需要将每个 title_name 与相应的listed_date、listed_value (如果可用)分组,然后将到达记录插入MySQL。
我正在使用scrapy shell,它提供了一些基本示例,例如
上面的代码给了我 title_name 列表和可用的listed_date、listed_value 的列表,但是如何匹配它们?(我们不能按索引,因为格式不是对称的)。
谢谢。
python - 仅 Scrapy 正文文本
我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。
希望一些学者可以在这里帮助我从<body>
标签中抓取所有文本。
python - Scrapy 雅虎集团蜘蛛
试图刮一个Y!组和我可以从一页获取数据,仅此而已。我有一些基本规则,但显然它们是不正确的。有人已经解决了这个问题吗?
python - Scrapy CrawlSpider 后处理:求平均值
假设我有一个类似于这个例子的爬虫: from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item
假设我想获取一些信息,例如每个页面的 ID 总和,或者所有已解析页面的描述中的平均字符数。我该怎么做?
另外,我怎样才能获得特定类别的平均值?
python - 制定 xpath 查询?
嘿,我有一个 html 页面,其中包含例如以下标签:
现在我使用 python 中的 scrapy 框架编写了一个爬虫,在其中我使用 cxxpath 查询来查找 foruri 标签,因为//@foruri
它应该给我foruri
标签存在的地方,但问题是它不会产生 http:
所以帮我搞定?
python - 用scrapy抓取多个域的最佳方法是什么?
我有大约 10 个奇怪的站点,我想从中获取信息。其中一些是 wordpress 博客,它们遵循相同的 html 结构,尽管具有不同的类。其他的要么是论坛,要么是其他格式的博客。
我喜欢抓取的信息很常见——帖子内容、时间戳、作者、标题和评论。
我的问题是,我是否必须为每个域创建一个单独的蜘蛛?如果没有,我如何创建一个通用蜘蛛,允许我通过从配置文件或类似文件中加载选项来进行抓取?
我想我可以从一个文件中加载 xpath 表达式,该位置可以通过命令行加载,但是在抓取某些域时似乎有些困难,需要我使用正则表达式select(expression_here).re(regex)
,而有些则不需要。
python - 用scrapy抓取参数化的url
我有一个使用 python scrapy 运行的蜘蛛,它正在抓取除了带有参数(即&
符号)的页面之外的所有页面,例如,http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9_simh_gw_p23_d0_i3?pf_rd_m=A3P5ROKL5A1OLE&pf_rd_s=center-2&pf_rd_r=1NWN2VXCA63R7TDYC3KQ&pf_rd_t=101&pf_rd_p=467128533&pf_rd_i=468294
.
错误日志说[scrapy] ERROR: xxx matching query does not exist.
我正在使用CrawlSpider
以下内容SgmlLinkExtractor rule
非常感谢您抽出宝贵的时间,并希望有幸提前感谢您。
python - 从论坛中的线程中提取特定字段
我正在从事一个数据挖掘项目,我需要为此分析论坛主题中的讨论进度。我有兴趣提取发布时间、帖子作者的统计信息(帖子数量、加入日期等)、帖子文本等信息。
但是,在使用标准抓取工具(如 python 中的 Scrapy)时,我需要编写正则表达式来检测页面的 html 源中的这些字段。由于这些标签因论坛类型而异,解决每个论坛的正则表达式已成为一个主要问题。是否有可用的此类正则表达式的标准库,以便可以根据论坛类型使用它们?
或者是否有任何其他技术可以从论坛页面中提取这些字段。
python - 如何避免爬虫中的重复
我使用python中的scrapy框架编写了一个爬虫来选择一些链接和元标记。然后它会爬取起始url并将数据以JSON编码格式写入文件。问题是当爬虫运行两三次时使用相同的起始网址,文件中的数据会重复。为了避免这种情况,我在 scrapy 中使用了下载器中间件,即:http ://snippets.scrapy.org/snippets/1/
我所做的是将上面的代码复制并粘贴到我的scrapy项目中的一个文件中,并通过添加以下行在settings.py文件中启用它:
其中“a11ypi.removeDuplicates.IgnoreVisitedItems”是类路径名,最后我进入并修改了我的 items.py 文件并包含以下字段
但这不起作用,并且爬虫在运行两次时仍会产生相同的结果并将其附加到文件中
我对我的 pipelines.py 文件中的文件进行了如下写入:
我的蜘蛛代码如下:
请建议做什么。