python - Scrapy - 使用 xPathSelector 提取嵌套的“img src”

Question

我对使用 Scrapy 或 python 比较陌生。我希望从几个不同的链接中提取，但我在使用 HTMLXPathSelector 表达式（语法）时遇到问题。我查看了大量文档以了解正确的语法，但还没有找到解决方案。

这是我尝试从中提取“img src”的链接示例：

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

class GeekSpider(BaseSpider):
    name = "geekS"
    allowed_domains = ["geek.com"]
    start_urls = ["http://www.geek.com/articles/gadgets/kindle-fire-hd-8-9-on-sale-for-50-off-today-only-20121210/"]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        imgurl = hxs.select("//div[@class='article']//a/img/@src").extract()
        return imgurl

我想我已经弄清楚了 x.select 语句的语法，但是由于我不熟悉这种语法/方法，所以我不确定。

这是我的 items.py 文件，基本上遵循了scrapy教程：

from scrapy.item import Item, Field

class GeekItem(Item):
    imgsrc = Field()

澄清一下：我要做的是提取页面上的 img src url。我不需要提取我已经弄清楚的所有图像 src（容易得多）。

我只是想缩小范围，只提取 img src 的特定 url。（我将在本网站的多个页面上使用它）

任何帮助是极大的赞赏！

编辑 - 更新代码我遇到了一些语法错误 geek = geek() 所以我稍微改变了它，希望更容易理解和运行

score 3 · Accepted Answer

我相信你的 xpath 表达式应该更像这样。我在另一个页面（亚马逊运输中心文章）上对其进行了测试，它返回了所有十张可点击的图像。

geek['imgsrc'] = x.select("//div[@class='article']//a/img/@src").extract()

要解决您的其他问题，您需要将 GeekItem 导入您的 GeekSpider 代码。

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from geekspider.items import GeekItem # I'm guessing the name of your project here

class GeekSpider(BaseSpider):
    name = "geekS"
    allowed_domains = ["geek.com"]
    start_urls = ["http://www.geek.com/articles/gadgets/kindle-fire-hd-8-9-on-sale-for-50-off-today-only-20121210/"]

    def parse(self, response):
        item = GeekItem()
        hxs = HtmlXPathSelector(response)
        item['imgsrc'] = hxs.select("//div[@class='article']//a/img/@src").extract()
        return item

python - Scrapy - 使用 xPathSelector 提取嵌套的“img src”

1 回答 1

Related

Reference