给定以下网址:
http://cisbp-rna.ccbr.utoronto.ca/TFreport.php?searchTF=T00022_0.6
这段代码解析它没有问题:
from pyquery import PyQuery as pq
url= "http://cisbp-rna.ccbr.utoronto.ca/TFreport.php?searchTF=T00022_0.6"
page = pq(url)
for tb in page('table.tf_report').eq(0).items():
print tb("tr").eq(4)("td").eq(0).text()
哪个打印
PF00642 (zf-CCCH) PF00098 (zf-CCHC) PF00076 (RRM_1)
但是当我将页面下载到本地磁盘时,它无法解析它。
from pyquery import PyQuery as pq
# this is local HTML
url = "T00022_0.6.html"
page = pq(url)
for tb in page('table.tf_report').eq(0).items():
print tb("tr").eq(4)("td").eq(0).text()
什么都不打印。
上面的本地文件可以在这里下载。
正确的方法是什么?