python - lxml可以解析python中tr的一部分

Question

当我使用 lmxl 解析网页时，lxml-xpath 可以获取目标的一部分，请参阅我的代码：

import urllib
import lxml.html
url="http://sc.hkex.com.hk/gb/www.hkex.com.hk/chi/market/sec_tradinfo/stockcode/eisdeqty_c.htm" 
file=urllib.urlopen(url).read() 
root=lxml.html.document_fromstring(file)
for company in root.xpath('//tr[@class="tr_normal"]'):
    print  company.text_content().encode('utf-8')  

>>>00325创生控股1,000#     
00326中国星集团50,000#     
00327百富环球1,000  
00328ALCO HOLDINGS2,000#     
00329  
>>>

有两个问题：
1.为什么我得到的只能是000329？其他材料丢失了？
2.为什么我无法获取代码大于000329的公司信息？

在此处输入图像描述

score 1 · Accepted Answer

read()不会一次阅读完整的页面。你需要迭代它

从文档中：

read() 方法，如果 size 参数被省略或为负，则可能直到数据流结束才读取；在一般情况下，没有很好的方法来确定来自套接字的整个流是否已被读取。

python - lxml可以解析python中tr的一部分

1 回答 1

Related

Reference