问题标签 [pyspider]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy可以用pyspider代替吗?
我一直在Scrapy
非常广泛地使用网络抓取框架,但是,最近我发现还有另一个名为 的框架/系统pyspider
,根据它的 github 页面,它是新鲜的、积极开发和流行的。
pyspider
的主页列出了开箱即用支持的几项内容:
强大的 WebUI,带有脚本编辑器、任务监视器、项目管理器和结果查看器
支持 Javascript 页面!
任务优先级、重试、定期和按年龄或索引页面中的标记重新抓取(如更新时间)
分布式架构
这些是Scrapy
本身不提供的东西,但是,借助portia
(Web UI)、scrapyjs
(js 页面)和scrapyd
(通过API 部署和分发)是可能的。
是否真的可以pyspider
单独取代所有这些工具?换句话说,是pyspider
Scrapy 的直接替代品吗?如果没有,那么它涵盖了哪些用例?
我希望我没有越过“太宽泛”或“基于意见”的界限。
python - scrapy 和 pyspider 如何向 Web 服务器发送请求
我正在学习爬虫框架:scrapy 和 pyspider,我很好奇它们如何向 Web 服务器发送请求。
他们使用 python 模块:requests还是内置模块 urllib?
任何建议都是有帮助的。谢谢你。
phantomjs - 无法使用 pyspider 和 phantomjs 抓取图像
现在我想在这个网页上刮掉所有物品(iphone)的图像。首先我把图片的所有链接都解压出来,然后一个一个的发送请求到src,下载到文件夹'/phone/'。这是我的代码:
它非常直观和简单。但是当我运行代码时,什么都没有发生,我只是在终端中收到了以下日志消息:
我对这个问题几乎疯了。你能告诉我是什么问题,我该如何解决?提前致谢!
python - Python 3.5/win 64 的 Pyspider 安装“lxml 构建轮失败
我正在尝试安装 pyspider 并且总是得到
“为 lxml 构建轮子失败......”,看起来 lxml 没有正确安装,我试图从http://www.lfd.uci 下载 lxml-3.6.1-cp35-cp35m-win_amd64.whl .edu/~gohlke/pythonlibs/#psutil。但是,看起来下载链接无效。你能给我一些关于如何解决这个问题的建议或与我分享 whl 文件吗?非常感谢!
python - 使用 scrapy 从 200k 域中提取文本
我的问题是:我想从某个域中提取所有有价值的文本,例如 www.example.com。所以我去这个网站并访问所有最大深度为 2 的链接并将其写入 csv 文件。
我在scrapy中编写了模块,它使用1个进程并产生多个爬虫来解决这个问题,但它效率低下 - 我能够爬取~1k个域/~5k个网站/小时,据我所知,我的瓶颈是CPU(因为吉尔?)。离开我的电脑一段时间后,我发现我的网络连接断开了。
当我想使用多个进程时,我刚刚从扭曲中得到了错误:并行进程中的 Scrapy Spiders 的多处理所以这意味着我必须学习扭曲,与 asyncio 相比,我会说我已弃用,但这只是我的意见。
所以我有几个想法该怎么做
- 反击并尝试学习扭曲并使用 Redis 实现多处理和分布式队列,但我不认为scrapy 是此类工作的正确工具。
- 使用 pyspider - 它具有我需要的所有功能(我从未使用过)
- 使用 nutch - 这太复杂了(我从未使用过)
- 尝试构建自己的分布式爬虫,但在爬取了 4 个网站后,我发现了 4 个边缘情况:SSL、重复、超时。但是添加一些修改会很容易,例如:聚焦爬行。
您推荐什么解决方案?
编辑1:共享代码
和电话:
蜘蛛不是特别有趣。
python - 为什么这段代码只下载一页的数据?
我已经尝试了很多次,但它不起作用:
我正在尝试下载一些详细信息,但它不起作用。如果键入2进行扫描,它只会下载一页详细信息,但会下载两次!
python - python错误104连接由对等方重置
我无法弄清楚为什么我不断收到此错误或如何修复它。我已经运行了一堆不同的 URL,而且这个错误并不是每次都发生。是我可以修复的东西还是我可以修复的代码中的东西,或者这是我无法修复的东西?
我查看了堆栈溢出,与我的问题类似的东西不起作用!!!!
这是我使用 vagrant 和 python 2.7 运行的代码:
python - Python ValueError:无效的标头名称b':权限
我看到 ':' 是错误的,但我找不到解决它的方法。
这是错误:
这是代码: