您的lxml
代码非常接近工作。主要问题是table
标签不是具有class="last"
属性的标签。相反,它是一个tr
具有该属性的标签:
</tr><tr class="last"><td>TRADING HOURS</td>
因此,
//table[@class="last"]
没有匹配项。还有一个小的语法错误:@id"tradingHours"
应该是@id="tradingHours"
.
您也可以//table[@class="last"]
完全省略,因为table[@id="tradingHours"]
足够具体。
与您的 BeautifulSoup 代码最接近的模拟是:
import urllib2
import lxml.html as LH
url = 'https://www.theice.com/productguide/ProductSpec.shtml?specId=251'
doc = LH.parse(urllib2.urlopen(url))
for td in doc.xpath('//table[@id="tradingHours"]//td/text()'):
print(td.strip())
grouper recipe , zip(*[iterable]*n)
, 在解析表时通常非常有用。它将项目收集到项目iterable
组中n
。我们可以像这样在这里使用它:
texts = iter(doc.xpath('//table[@id="tradingHours"]//td/text()'))
for group in zip(*[texts]*5):
row = [item.strip() for item in group]
print('\n'.join(row))
print('-'*80)
我不太擅长解释石斑鱼食谱的工作原理,但我在这里做了一个尝试。
此页面正在使用 JavaScript 重新格式化日期。要在 JavaScript 更改内容后抓取页面,可以使用selenium:
import urllib2
import lxml.html as LH
import contextlib
import selenium.webdriver as webdriver
url = 'https://www.theice.com/productguide/ProductSpec.shtml?specId=251'
with contextlib.closing(webdriver.PhantomJS('phantomjs')) as driver:
driver.get(url)
content = driver.page_source
doc = LH.fromstring(content)
texts = iter(doc.xpath('//table[@id="tradingHours"]//td/text()'))
for group in zip(*[texts]*5):
row = [item.strip() for item in group]
print('\n'.join(row))
print('-'*80)
产量
NEW YORK
8:00 PM-2:15 PM *
20:00-14:15
7:30 PM
19:30
--------------------------------------------------------------------------------
LONDON
1:00 AM-7:15 PM
01:00-19:15
12:30 AM
00:30
--------------------------------------------------------------------------------
SINGAPORE
8:00 AM-2:15 AM *
08:00-02:15
7:30 AM
07:30
--------------------------------------------------------------------------------
请注意,在这种特殊情况下,如果您不想使用 selenium,则可以使用pytz自己解析和转换时间:
import dateutil.parser as parser
import pytz
text = 'Tue Jul 30 20:00:00 EDT 2013'
date = parser.parse(text)
date = date.replace(tzinfo=None)
print(date.strftime('%I:%M %p'))
# 08:00 PM
ny = pytz.timezone('America/New_York')
london = pytz.timezone('Europe/London')
london_date = ny.localize(date).astimezone(london)
print(london_date.strftime('%I:%M %p'))
# 01:00 AM