python - Xpath 只到父变量而不是整个页面

Question

我正在尝试从表中获取数据，但遇到了必须从特定表数据单元格中获取数据的问题。

#! /usr/bin/python

import urllib
from lxml import html

url="http://kforce.com/Jobs/Search.aspx?Location=&Specialty=Technology-Jobs&Keyword="

pageHtml = html.fromstring(urllib.urlopen(url).read())

#id="Body_SearchResultsControl_grdJobs"

#row class jobResultsAlternateRow || jobResultsRowStyle

jobs = pageHtml.xpath("//table[@id='Body_SearchResultsControl_grdJobs']/tr[@class='jobResultsAlternateRow' or @class='jobResultsRowStyle']");

for i in jobs:
        cols = i.getchildren() #get all table data cells
        print(cols[0].xpath('//a/@href'))
        exit(0)

xpath 被应用于页面上的所有链接，而不仅仅是我分配给它的列。我对 XPath 不是很熟悉，但不确定是 XPath 查询还是我使用的 xpath 查询。

score 1 · Accepted Answer

.//如果您想在元素内部而不是根目录中开始搜索，您应该使用：

print(cols[0].xpath('.//a/@href'))

打印['Job.aspx?job=1696~EQG~1259184T1~99&keyword=']- 我认为这就是你想要的。

希望有帮助。

python - Xpath 只到父变量而不是整个页面

1 回答 1

Related

Reference