0

我需要使用 ip 地址来获取内容,例如 ip address = 157.123.22.11 我需要获取组织值 Zenith Data Systems

<td>

  Zenith Data Systems</td>

 </tr>

 <tr class="odd">

<th>Organization:</th>

   <td>

      Zenith Data Systems</td>

  </tr>

 </table>

我使用urllib2获取html内容,一些朋友喜欢的代码

 import urllib2
 import lxml.html as lh

 req = urllib2.Request("http://www.ip-adress.com/ip_tracer/157.123.22.11", headers={'User-Agent' : "Magic Browser"})
 html = urllib2.urlopen(req).read()
 doc=lh.fromstring(html)
 print ''.join(doc.xpath('.//*[@class="odd"]')[-1].text_content().split())

但它显示 import lxml.html as lh ImportError: No module named lxml.html。那你能不能给我在网站打印组织名称的解决方案,直接获取网站内容而无需像安装lxml这样的任何新安装,我的Python是2.4.3版本

4

2 回答 2

1

lxml 不是标准库,所以需要安装。

通过 pip 安装 lxml 更好:

pip install lxml
于 2012-10-15T03:40:20.033 回答
0

您需要创建一个继承 HTMLParser.HTMLParser 的类。您还需要实现 handle_starttag、handle_endtag 和 handle_data 方法来解析字符串 HTML。

检查 python 文档以获取详细信息:HTMLParser 类

于 2012-10-15T03:37:46.327 回答