0

我在 Eclipse 中使用 Python 2.7。我正在做一个使用 Scrapy 构建基本网络爬虫的教程。链接在这里。

http://www.youtube.com/watch?v=4fbvkMhvsWY

在命令提示符下启动刮板之前,我在尝试以下代码行时收到“未解决的导入”错误:

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

当我尝试使用以下命令在命令提示符下爬网时:

scrapy 抓取我的文件

我收到错误消息 "Spider not found: myfile"

我的 items.py 文件中还有另一个未解决的导入错误。“字段”不仅得到“未解决的导入”错误,而且还得到“未使用的导入”错误。

items.py 文件中的代码:

from scrapy.item import Item, Field

这是蜘蛛文件中的代码:

蜘蛛文件(命名为 Tutorial1.py)

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

class Tutorial1 (BaseSpider):
    name="Tutorial1"

    allowed_domains=['http://wikipedia.org']
    start_urls = ["http://en.wikipedia.org/wiki/Home_page",]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        print hxs.select('//div/a').extract()

此外,在尝试做其他教程时,我遇到了同样的问题,让我相信这与我的目录有关。不过我不确定。

我发现其他人也有类似的问题。

Scrapy:ImportError:没有名为项目的模块

Scrapy蜘蛛不工作

我的系统路径如下所示:

C:\Python27;C:\Python27\Scripts

导入以下内容时我没有收到错误:

import zope.interface

import twisted

import lxml

import OpenSSL

import scrapy

请帮我解决这个问题。提前致谢。

4

1 回答 1

0

scrapy crawl你的蜘蛛的名字是你的命令中应该使用的参数。此名称在您的蜘蛛代码 ( name = "Tutorial1") 中设置,因此运行该命令scrapy crawl Tutorial1应该可以解决命令行问题。

至于导入错误,我注意到您使用的是 Windows。在 Windows (7) 上安装 scrapy 可能比其他操作系统更复杂。本文建议额外安装 pyopenssl、w3lib 和 pywin32

你用的是什么版本的scrapy?

于 2013-01-12T20:35:32.150 回答