python - 用于html内容的python过滤器

Question

我需要使用 ip 地址来获取内容，例如 ip address = 157.123.22.11 我需要获取组织值 Zenith Data Systems

<td>

  Zenith Data Systems</td>

 </tr>

 <tr class="odd">

<th>Organization:</th>

   <td>

      Zenith Data Systems</td>

  </tr>

 </table>

我使用urllib2获取html内容，一些朋友喜欢的代码

 import urllib2
 import lxml.html as lh

 req = urllib2.Request("http://www.ip-adress.com/ip_tracer/157.123.22.11", headers={'User-Agent' : "Magic Browser"})
 html = urllib2.urlopen(req).read()
 doc=lh.fromstring(html)
 print ''.join(doc.xpath('.//*[@class="odd"]')[-1].text_content().split())

但它显示 import lxml.html as lh ImportError: No module named lxml.html。那你能不能给我在网站打印组织名称的解决方案，直接获取网站内容而无需像安装lxml这样的任何新安装，我的Python是2.4.3版本

score 1 · Accepted Answer

1

lxml 不是标准库，所以需要安装。

通过 pip 安装 lxml 更好：

pip install lxml

于 2012-10-15T03:40:20.033 回答

score 0 · Accepted Answer

您需要创建一个继承 HTMLParser.HTMLParser 的类。您还需要实现 handle_starttag、handle_endtag 和 handle_data 方法来解析字符串 HTML。

检查 python 文档以获取详细信息：HTMLParser 类

python - 用于html内容的python过滤器

2 回答 2

Related

Reference