python-2.7 - 用于LinkedIn数据提取的scrapy-linkedin

Question

我正在使用 scrapy-0.16 从 LinkedIn 中提取数据。

    from scrapy.selector import HtmlXPathSelector
    from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
    from scrapy.contrib.spiders import CrawlSpider, Rule
    from scrapy.http import Request
    from scrapy import log
    from linkedin.items import LinkedinItem, PersonProfileItem
    from os import path
    from linkedin.parser.HtmlParser import HtmlParser
    import os
    import urllib
    from bs4 import UnicodeDammit
    from linkedin.db import MongoDBClient

https://github.com/pondering/scrapy-linkedin

错误来了

Traceback (most recent call last):
  File "C:\Users\TAWANE DUDEZ\Desktop\linkedin\linkedin\spiders\LinkedinSpider.py", line 6, in <module>
    from linkedin.items import LinkedinItem, PersonProfileItem
ImportError: No module named linkedin.items

找不到linkedin.items模块。

score 3 · Accepted Answer

我的怀疑是你试图scrapy crawl LinkedinSpider从错误的目录运行命令。尝试导航到C:\Users\TAWANE DUDEZ\Desktop\linkedin然后再次运行该命令。

由于爬虫现在正在启动，因此您还需要在开始爬网之前运行 MongoDB 实例。正在使用的 github 项目的自述文件说要键入mongod以启动一个实例。只是检查一下，您确实安装了 MongoDB 和 pymongo 吗？

python-2.7 - 用于LinkedIn数据提取的scrapy-linkedin

1 回答 1

Related

Reference