python-2.7 - 如何在 Scrapy 中使用 Xpath 提取文本？

Question

好吧，似乎我已经尝试了所有方法，但无法弄清楚这里发生了什么。我要抓取的网站的直接链接是http://www.ammofast.com/collections/pistol/products/aguila-25-auto-acp-full-metal-jacket-50-gr-1000-round-案子

我想提取标题和价格。我最好的尝试只是返回一个空的 []

User-Ps-MacBook-Pro:ammo user$ scrapy shell "http://www.ammofast.com/collections/pistolproducts/aguila-25-auto-acp-full-metal-jacket-50-gr-1000-round-case"
...
>>> response.xpath('//div[@id="product-header-title"]/h1[@id="product-title"]/text()').extract
<bound method SelectorList.extract of []>

我尝试了一些不同的变化，但都无济于事。我想我还没有完全理解 XPath 结构，但这就是我练习的原因 :) 感谢您的帮助！我也在使用 Scrapy 1.1.0。

score 1 · Accepted Answer

价格是使用 Javascript 加载的，在源代码中您可以看到：

window.ShopifyAnalytics.lib.track(
          "Viewed Product",
          {"id":705964349,"name":"Aguila .25 Auto ACP Full Metal Jacket 50 Gr 1000 Round Case - 1000 \/ 50","price":"329.99","currency":"USD","sku":"","brand":"Aguila","category":".25 ACP","nonInteraction":true}
        );

            });

您可以查看是否查看返回的源代码中实际上没有文本p class="price"：

 <div id="purchase">
                <p class="price"></p>                                 
                <input class="btn" type="submit" name="add" id="add-to-cart" value="Add to Cart" />
              </div>

            </div><!-- /.options -->

您可以做的是解析该功能代码或从选项标签中获取价格：

In [15]: response.xpath("//*[@id='product-title']/text()")
Out[15]: [<Selector xpath="//*[@id='product-title']/text()" data=u'Aguila .25 Auto ACP Full Metal Jacket 50'>]

In [16]: response.xpath("//option/text()")
Out[16]:  [<Selector xpath="//*[@id='product-select']/option/text()" data=u'1000 / 50 - $329.99'>]

python-2.7 - 如何在 Scrapy 中使用 Xpath 提取文本？

1 回答 1

Related

Reference