问题标签 [scrapy-shell]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

160 问题

0 投票

2 回答

711 浏览

shell - Scrapy response.xpath 不返回任何查询

我正在使用scrapy shell 来提取一些文本数据。以下是我在 scrapy shell 中给出的命令：

第三个命令不返回任何数据。我试图在命令中的 2 个关键字之间提取数据。我哪里错了？

2014-12-01T17:50:55.073

0 投票

1 回答

799 浏览

python-2.7 - 为什么我的 scrapy 没有使用 start_urls 列表中的所有 url？

我的 start_urls 列表中有近 300 个 url，但 scrapy 只写了大约 200 个 url。但并非所有这些列出的网址。我不知道为什么？我该如何处理。我必须从网站上潦草地写更多的项目。

另一个我不明白的问题是：scrapy 完成时如何查看日志错误？从终端或我必须编写代码才能看到日志错误。我认为日志是默认启用的。

感谢您的回答。

更新：

输出如下。我不知道为什么只有 2829 项被刮掉。我的 start_urls 实际上有 600 个 url。

但是当我在 start_urls 中只给出 400 个 url 时，它可以抓取 6000 个项目。我希望能刮掉 www.yhd.com 的几乎整个网站。有人可以提供更多建议吗？

python-2.7 scrapy scrapy-spider scrapy-shell

2014-12-05T17:23:35.043

0 投票

2 回答

1094 浏览

python - Scrapy Shell XPath

我正在尝试从此http://www.npr.org/rss/#feeds新闻提要网站获取链接和类别。

这是我在scrapy shell中的xpath：

但是 b 的长度比 a 的长度小一。我不知道我在这里错过了什么。但这会导致数据出现问题。

从下图中，类别名称是“通过电子邮件发送最多的故事”，但链接是“新闻头条”

任何帮助，将不胜感激 Xpath 屏幕

python xpath web-scraping scrapy scrapy-shell

2015-01-05T19:20:51.747

0 投票

0 回答

212 浏览

python-2.7 - scrapy keyError: z (freebsd)

我正在尝试在freebsd（MariaDB）系统中安装scrapy 0.24但是当我尝试运行它时我有一个“keyError：'z'”，我不知道它是什么意思......我试图调试它没有成功.

我会尝试在freebsd中安装scrapy 0.22，以防万一这可能是问题

非常感谢！！

python-2.7 scrapy freebsd mariadb scrapy-shell

2015-01-24T19:51:40.690

0 投票

1 回答

12222 浏览

xpath - scrapy xpath 按类名选择元素

我已经关注了如何使用 XPath 通过 CSS 类找到元素？它提供了用于按类名选择元素的选择器。问题是当我使用它时，它会检索一个空结果“[]”，事实上我知道在提供给 scrapy shell 的 url 中有一个分类为“zoomWindow”的 div。

在此处输入图像描述

我的尝试：

我查看了许多提供各种选择器的资源。在我的情况下，该元素只有一个类，因此使用“concat”的版本我使用但没有工作并被丢弃。

我已经在虚拟机中安装了 ubuntu 和 scrapy，只是为了确保它不是我在 Windows 上安装的错误，但我在 ubuntu 上的尝试得到了相同的结果。

我不知道还能尝试什么，你能在选择器中看到任何拼写错误吗？

xpath web-scraping scrapy scrapy-shell

2015-01-27T15:53:23.403

0 投票

1 回答

1253 浏览

python - Scrapy ImagesPipeline WARNING: File (unknown-error): Error download image from
我正在学习 Python 和 Scrapy，并且正在学习如何使用它下载图像。我现在有点卡住了，我无法弄清楚真正的问题是什么。

运行蜘蛛时收到此错误消息

`<None>: Unsupported URL scheme '': no ha`



我正在学习 Python 和 Scrapy，并且正在学习如何使用它下载图像。我现在有点卡住了，我无法弄清楚真正的问题是什么。

运行蜘蛛时收到此错误消息


和


请在此处查看我的 pipelines.py


请在此处查看我的 settings.py


请在这里查看我的蜘蛛


在我的 item.py 中，我添加了以下代码


请告诉我如何正确配置它以便下载图像。我在 Windows 8 机器上。先感谢您。  



Python递归没有'in'解决方法
所以我的递归函数也是在列表中查看，看看是否已经在列表中重复了一个项目。前任。L = [1,2,3,4,3] 返回真。我已经完成了它，但我不允许使用“in”功能，但不知道如何解决。

编辑：我被允许使用的唯一内置函数是len, 和index和拼接运算符。


        
            
pythonscrapyscrapy-spiderscrapy-shell            
            




         

    
            
               user1404801 
             
    

            2015-03-21T03:27:46.390


    
        

                
            0
            投票
        
        
            1
            回答
        
        
            2679
            浏览
        



    
    


python - python在url中转换汉字


我有一个像

href="../job/jobarea.asp?C_jobtype=经营管理资源&人数=151" ,

这显示在检查元素中。但是当在新标签中打开时，它显示为

../job/jobarea.asp?C_jobtype=%B8g%C0%E7%BA%DE%B2z%A5D%BA%DE&peoplenumber=151

我怎么知道浏览器使用哪种类型的编码来转换它。当我尝试做scrapy时，它显示了一些其他格式，并且由于500内部服务器错误而停止。你能解释一下吗？

        
            
pythonscrapyscrapy-shell            
            




         

    
            
                
             
    

            2015-04-07T07:40:02.300


    
        

                
            0
            投票
        
        
            1
            回答
        
        
            162
            浏览
        



    
    


xpath - Scrapy Amazon 绝对路径但没有返回值


我正在尝试通过使用如下绝对路径来使用来自 amazon.co.uk 的 Scrapy 一些信息。但奇怪的是没有返回值。我对 Scrapy 很陌生：


在这种情况下，我希望它返回 name 属性是：RI4HGFJCSI04W。

        
            
xpathweb-scrapingscrapyamazonscrapy-shell            
            




         

    
            
                
             
    

            2015-04-28T22:54:31.210


    
        

                
            0
            投票
        
        
            1
            回答
        
        
            594
            浏览
        



    
    


scrapy - Scrapy redirects to homepage for some urls


I am new to Scrapy framework & currently using it to extract articles from multiple 'Health & Wellness' websites. For some of the requests, scrapy is redirecting to homepage(this behavior is not observed in browser). Below is an example:

Command:
    scrapy shell "http://www.bornfitness.com/blog/page/10/"
Result:
    2015-06-19 21:32:15+0530 [scrapy] DEBUG: Web service listening on 127.0.0.1:6080
    2015-06-19 21:32:15+0530 [default] INFO: Spider opened
    2015-06-19 21:32:15+0530 [default] DEBUG: Redirecting (301) to http://www.bornfitness.com/> from http://www.bornfitness.com/blog/page/10/>
    2015-06-19 21:32:16+0530 [default] DEBUG: Crawled (200) http://www.bornfitness.com/> (referer: None)

Note that the page number in url(10) is a two-digit number. I don't see this issue with urls with single-sigit page number(8 for example).
Result:
    2015-06-19 21:43:15+0530 [default] INFO: Spider opened
    2015-06-19 21:43:16+0530 [default] DEBUG: Crawled (200) http://www.bornfitness.com/blog/page/8/> (referer: None)

        
            
scrapyscrapy-shell            
            




         

    
            
                
             
    

            2015-06-19T16:16:13.093


    
        

                
            0
            投票
        
        
            3
            回答
        
        
            3693
            浏览
        



    
    


python - 针对本地文件的 Scrapy shell


在 Scrapy 1.0 之前，我可以非常简单地针对本地文件运行 Scrapy Shell：


升级到1.0.3后开始报错：


这种行为是有意的还是 Scrapy Shell 中的错误？



作为一种解决方法，我可以在“文件”URL 方案中使用文件的绝对路径：


显然，这不那么方便和容易。

        
            
pythonshellweb-scrapingscrapyscrapy-shell            
            




         

    
            
                
             
    

            2015-10-12T19:36:01.460

12345678910




 
  
	Reference
	
		php × 1429865 
	
	
		c/c++ × 756500 
	
	
		nginx × 49975 
	
	
		mongodb × 159057 
	
	
		mybatis × 3233 
	
	
		anaconda × 13410 
	
		
		pycharm × 14671 
	
	
		python × 1902243 
	
	
		vscode × 56040 
	
		
		docker × 110988 
	
	
		github × 49000 
	
	
		flask × 49129 
	
	
		ffmpeg × 24037 
	
	
	
		jmeter × 16910 
	
	
		matplotlib × 63493 
	
	
		bootstrap × 54641

问题标签 [scrapy-shell]

python - Scrapy ImagesPipeline WARNING: File (unknown-error): Error download image from 我正在学习 Python 和 Scrapy，并且正在学习如何使用它下载图像。我现在有点卡住了，我无法弄清楚真正的问题是什么。 运行蜘蛛时收到此错误消息

Python递归没有'in'解决方法

Reference