问题标签 [scrapy]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

16478 问题

0 投票

2 回答

2673 浏览

python - 使用 Python 的“Scrapy”时出错

我在 Python 2.7 上安装了最新版本的 Scrapy（是的，我仍然使用这个版本）并且在运行 Scrapy 的教程脚本时遇到错误。我正在运行的代码是：

错误是：

教程脚本在我的桌面上。会有这种效果吗？我应该把它放在不同的地方吗？

python scrapy

2011-03-15T23:10:26.437

0 投票

2 回答

1290 浏览

python - Scrapy，python，Xpath如何匹配html中的各个项目

我是 Xpath 的新手，试图用以下格式抓取网站：

listed_value 和listed_date 的存在是可选的。

我需要将每个 title_name 与相应的listed_date、listed_value （如果可用）分组，然后将到达记录插入MySQL。

我正在使用scrapy shell，它提供了一些基本示例，例如

上面的代码给了我 title_name 列表和可用的listed_date、listed_value 的列表，但是如何匹配它们？（我们不能按索引，因为格式不是对称的）。

谢谢。

2011-03-17T15:16:51.213

0 投票

2 回答

8775 浏览

python - 仅 Scrapy 正文文本

我正在尝试使用 python Scrapy 仅从正文中抓取文本，但还没有任何运气。

希望一些学者可以在这里帮助我从<body>标签中抓取所有文本。

python scrapy scrape scraper

2011-03-22T10:59:56.923

0 投票

1 回答

519 浏览

python - Scrapy 雅虎集团蜘蛛

试图刮一个Y！组和我可以从一页获取数据，仅此而已。我有一些基本规则，但显然它们是不正确的。有人已经解决了这个问题吗？

python yahoo scrapy

2011-03-23T14:34:04.613

0 投票

1 回答

1653 浏览

python - Scrapy CrawlSpider 后处理：求平均值

假设我有一个类似于这个例子的爬虫： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item

假设我想获取一些信息，例如每个页面的 ID 总和，或者所有已解析页面的描述中的平均字符数。我该怎么做？

另外，我怎样才能获得特定类别的平均值？

python web-scraping scrapy

2011-03-27T06:59:56.033

0 投票

1 回答

127 浏览

python - 制定 xpath 查询？

嘿，我有一个 html 页面，其中包含例如以下标签：

现在我使用 python 中的 scrapy 框架编写了一个爬虫，在其中我使用 cxxpath 查询来查找 foruri 标签，因为//@foruri它应该给我foruri标签存在的地方，但问题是它不会产生 http：

所以帮我搞定？

python web-crawler scrapy

2011-03-29T16:35:02.567

0 投票

6 回答

3720 浏览

python - 用scrapy抓取多个域的最佳方法是什么？

我有大约 10 个奇怪的站点，我想从中获取信息。其中一些是 wordpress 博客，它们遵循相同的 html 结构，尽管具有不同的类。其他的要么是论坛，要么是其他格式的博客。

我喜欢抓取的信息很常见——帖子内容、时间戳、作者、标题和评论。

我的问题是，我是否必须为每个域创建一个单独的蜘蛛？如果没有，我如何创建一个通用蜘蛛，允许我通过从配置文件或类似文件中加载选项来进行抓取？

我想我可以从一个文件中加载 xpath 表达式，该位置可以通过命令行加载，但是在抓取某些域时似乎有些困难，需要我使用正则表达式select(expression_here).re(regex)，而有些则不需要。

python screen-scraping scrapy

2011-03-31T08:44:47.833

0 投票

2 回答

755 浏览

python - 用scrapy抓取参数化的url

我有一个使用 python scrapy 运行的蜘蛛，它正在抓取除了带有参数（即&符号）的页面之外的所有页面，例如，http://www.amazon.co.uk/gp/product/B003ZDXHSG/ref=s9_simh_gw_p23_d0_i3?pf_rd_m=A3P5ROKL5A1OLE&pf_rd_s=center-2&pf_rd_r=1NWN2VXCA63R7TDYC3KQ&pf_rd_t=101&pf_rd_p=467128533&pf_rd_i=468294.

错误日志说[scrapy] ERROR: xxx matching query does not exist.

我正在使用CrawlSpider以下内容SgmlLinkExtractor rule

非常感谢您抽出宝贵的时间，并希望有幸提前感谢您。

python scrapy

2011-03-31T11:33:37.257

0 投票

2 回答

968 浏览

python - 从论坛中的线程中提取特定字段

我正在从事一个数据挖掘项目，我需要为此分析论坛主题中的讨论进度。我有兴趣提取发布时间、帖子作者的统计信息（帖子数量、加入日期等）、帖子文本等信息。

但是，在使用标准抓取工具（如 python 中的 Scrapy）时，我需要编写正则表达式来检测页面的 html 源中的这些字段。由于这些标签因论坛类型而异，解决每个论坛的正则表达式已成为一个主要问题。是否有可用的此类正则表达式的标准库，以便可以根据论坛类型使用它们？

或者是否有任何其他技术可以从论坛页面中提取这些字段。

python regex web-scraping scrapy forums

2011-04-01T20:01:35.590

0 投票

1 回答

1949 浏览

python - 如何避免爬虫中的重复

我使用python中的scrapy框架编写了一个爬虫来选择一些链接和元标记。然后它会爬取起始url并将数据以JSON编码格式写入文件。问题是当爬虫运行两三次时使用相同的起始网址，文件中的数据会重复。为了避免这种情况，我在 scrapy 中使用了下载器中间件，即：http ://snippets.scrapy.org/snippets/1/

我所做的是将上面的代码复制并粘贴到我的scrapy项目中的一个文件中，并通过添加以下行在settings.py文件中启用它：

其中“a11ypi.removeDuplicates.IgnoreVisitedItems”是类路径名，最后我进入并修改了我的 items.py 文件并包含以下字段

但这不起作用，并且爬虫在运行两次时仍会产生相同的结果并将其附加到文件中

我对我的 pipelines.py 文件中的文件进行了如下写入：

我的蜘蛛代码如下：

请建议做什么。

python web-crawler scrapy

2011-04-05T14:02:20.537

1 2 3 4 5 6 7 8 9 10

问题标签 [scrapy]

Reference