当我使用 lmxl 解析网页时,lxml-xpath 可以获取目标的一部分,请参阅我的代码:
import urllib
import lxml.html
url="http://sc.hkex.com.hk/gb/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm"
file=urllib.urlopen(url).read()
root=lxml.html.document_fromstring(file)
for company in root.xpath('//tr[@class="tr_normal"]'):
print company.text_content().encode('utf-8')
>>>00325创生控股1,000#
00326中国星集团50,000#
00327百富环球1,000
00328ALCO HOLDINGS2,000#
00329
>>>
有两个问题:
1.为什么我得到的只能是000329?其他材料丢失了?
2.为什么我无法获取代码大于000329的公司信息?