我正在尝试从表中获取数据,但遇到了必须从特定表数据单元格中获取数据的问题。
#! /usr/bin/python
import urllib
from lxml import html
url="http://kforce.com/Jobs/Search.aspx?Location=&Specialty=Technology-Jobs&Keyword="
pageHtml = html.fromstring(urllib.urlopen(url).read())
#id="Body_SearchResultsControl_grdJobs"
#row class jobResultsAlternateRow || jobResultsRowStyle
jobs = pageHtml.xpath("//table[@id='Body_SearchResultsControl_grdJobs']/tr[@class='jobResultsAlternateRow' or @class='jobResultsRowStyle']");
for i in jobs:
cols = i.getchildren() #get all table data cells
print(cols[0].xpath('//a/@href'))
exit(0)
xpath 被应用于页面上的所有链接,而不仅仅是我分配给它的列。我对 XPath 不是很熟悉,但不确定是 XPath 查询还是我使用的 xpath 查询。