问题标签 [pyspider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
8834 浏览

python - Scrapy可以用pyspider代替吗?

我一直在Scrapy非常广泛地使用网络抓取框架,但是,最近我发现还有另一个名为 的框架/系统pyspider,根据它的 github 页面,它是新鲜的、积极开发和流行的。

pyspider的主页列出了开箱即用支持的几项内容:

  • 强大的 WebUI,带有脚本编辑器、任务监视器、项目管理器和结果查看器

  • 支持 Javascript 页面!

  • 任务优先级、重试、定期和按年龄或索引页面中的标记重新抓取(如更新时间)

  • 分布式架构

这些是Scrapy本身不提供的东西,但是,借助portia(Web UI)、scrapyjs(js 页面)和scrapyd(通过API 部署和分发)是可能的。

是否真的可以pyspider单独取代所有这些工具?换句话说,是pyspiderScrapy 的直接替代品吗?如果没有,那么它涵盖了哪些用例?

我希望我没有越过“太宽泛”或“基于意见”的界限。

0 投票
0 回答
152 浏览

python - scrapy 和 pyspider 如何向 Web 服务器发送请求

我正在学习爬虫框架:scrapy 和 pyspider,我很好奇它们如何向 Web 服务器发送请求。

他们使用 python 模块:requests还是内置模块 urllib?

任何建议都是有帮助的。谢谢你。

0 投票
1 回答
381 浏览

phantomjs - 无法使用 pyspider 和 phantomjs 抓取图像

现在我想在这个网页上刮掉所有物品(iphone)的图像。首先我把图片的所有链接都解压出来,然后一个一个的发送请求到src,下载到文件夹'/phone/'。这是我的代码:

它非常直观和简单。但是当我运行代码时,什么都没有发生,我只是在终端中收到了以下日志消息:

我对这个问题几乎疯了。你能告诉我是什么问题,我该如何解决?提前致谢!

0 投票
1 回答
540 浏览

python - 我想将 python pyspider 脚本的输出存储到 csv 或 json

这是我制作的代码:

在上面的代码中,我有来自链接的报废数据,但我无法以 json 或 csv 格式获得输出

在此处输入图像描述

0 投票
1 回答
453 浏览

python-3.x - pyspider:没有名为“wsgidav”的模块

我在windows 10上使用python 3.5.2,我安装了pyspider,运行pyspider all,有一些错误,如下: 在此处输入图像描述

我应该怎么办?

0 投票
1 回答
426 浏览

python - Python 3.5/win 64 的 Pyspider 安装“lxml 构建轮失败

我正在尝试安装 pyspider 并且总是得到

“为 lxml 构建轮子失败......”,看起来 lxml 没有正确安装,我试图从http://www.lfd.uci 下载 lxml-3.6.1-cp35-cp35m-win_amd64.whl .edu/~gohlke/pythonlibs/#psutil。但是,看起来下载链接无效。你能给我一些关于如何解决这个问题的建议或与我分享 whl 文件吗?非常感谢!

0 投票
1 回答
1062 浏览

python - 使用 scrapy 从 200k 域中提取文本

我的问题是:我想从某个域中提取所有有价值的文本,例如 www.example.com。所以我去这个网站并访问所有最大深度为 2 的链接并将其写入 csv 文件。

我在scrapy中编写了模块,它使用1个进程并产生多个爬虫来解决这个问题,但它效率低下 - 我能够爬取~1k个域/~5k个网站/小时,据我所知,我的瓶颈是CPU(因为吉尔?)。离开我的电脑一段时间后,我发现我的网络连接断开了。

当我想使用多个进程时,我刚刚从扭曲中得到了错误:并行进程中的 Scrapy Spiders 的多处理所以这意味着我必须学习扭曲,与 asyncio 相比,我会说我已弃用,但这只是我的意见。

所以我有几个想法该怎么做

  • 反击并尝试学习扭曲并使用 Redis 实现多处理和分布式队列,但我不认为scrapy 是此类工作的正确工具。
  • 使用 pyspider - 它具有我需要的所有功能(我从未使用过)
  • 使用 nutch - 这太复杂了(我从未使用过)
  • 尝试构建自己的分布式爬虫,但在爬取了 4 个网站后,我发现了 4 个边缘情况:SSL、重复、超时。但是添加一些修改会很容易,例如:聚焦爬行。

您推荐什么解决方案?

编辑1:共享代码

和电话:

蜘蛛不是特别有趣。

0 投票
1 回答
43 浏览

python - 为什么这段代码只下载一页的数据?

我已经尝试了很多次,但它不起作用:

我正在尝试下载一些详细信息,但它不起作用。如果键入2进行扫描,它只会下载一页详细信息,但会下载两次!

0 投票
0 回答
11337 浏览

python - python错误104连接由对等方重置

我无法弄清楚为什么我不断收到此错误或如何修复它。我已经运行了一堆不同的 URL,而且这个错误并不是每次都发生。是我可以修复的东西还是我可以修复的代码中的东西,或者这是我无法修复的东西?

我查看了堆栈溢出,与我的问题类似的东西不起作用!!!!

这是我使用 vagrant 和 python 2.7 运行的代码:

0 投票
1 回答
10110 浏览

python - Python ValueError:无效的标头名称b':权限

我看到 ':' 是错误的,但我找不到解决它的方法。

这是错误:


这是代码: