scrapy - Scrapy 没有输出

Question

我正在尝试从 URL 列表中抓取一些数据，例如http://basketball.realgm.com/international/league/12/French-LNB-Pro-A/teams以提取所有团队名称。下面是我的蜘蛛，它通过 URL 运行但没有获取任何数据？

from scrapy.spider import Spider
from scrapy.selector import HtmlXPathSelector
from teams.items import TeamsItem

class TeamsSpider(Spider):
    name = "teamcrawler"
    allowed_domains = ["basketball.realgm.com"]
    f = open("teamurls.txt")
    start_urls = [url.strip() for url in f.readlines()]

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("/html/body/div[1]/div[2]/table/tbody/tr/td/div[2]/table/tbody/tr")
        items = []
        for title in titles:
            item = TeamsItem()
            item["URL"] = title.select("td[1]/a/@href").extract()
            item["Team"] = title.select("td[1]/a/text()").extract()
            items.append(item)
        print items
        return items

score 0 · Accepted Answer

由于 XPath 中的，您的 XPath 失败tbody。如果页面源中不存在该节点，浏览器（如 Firefox 和 Chrome）会将其添加到表中。

由于该tbody节点可能位于页面源中，也可能不在页面源中，因此您可以使用 scrapy shell 对 scrapy 看到的内容执行交互式调试。用法：scrapy shell 'http://www.example.org'

相关问题：使用 XPath、Python 和 Scrapy 解析 HTML

scrapy - Scrapy 没有输出

1 回答 1

Related

Reference