0

当我使用 lmxl 解析网页时,lxml-xpath 可以获取目标的一部分,请参阅我的代码:

import urllib
import lxml.html
url="http://sc.hkex.com.hk/gb/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm" 
file=urllib.urlopen(url).read() 
root=lxml.html.document_fromstring(file)
for company in root.xpath('//tr[@class="tr_normal"]'):
    print  company.text_content().encode('utf-8')  

>>>00325创生控股1,000#     
00326中国星集团50,000#     
00327百富环球1,000  
00328ALCO HOLDINGS2,000#     
00329  
>>> 

有两个问题:
1.为什么我得到的只能是000329?其他材料丢失了?
2.为什么我无法获取代码大于000329的公司信息?

在此处输入图像描述

4

1 回答 1

1

read()不会一次阅读完整的页面。你需要迭代它

从文档中:

read() 方法,如果 size 参数被省略或为负,则可能直到数据流结束才读取;在一般情况下,没有很好的方法来确定来自套接字的整个流是否已被读取。

于 2012-09-06T07:44:02.867 回答