-1

我在磁盘上本地存储了大约 1000 页,其中包含类似于以下示例的内容。

<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>

我需要帮助弄清楚如何从第 3 行提取字符串 Dave 并将其加载到 UserName 列表中。另外,我需要从第四行中提取 00000001 并将其加载到 UserID 列表中。

请帮忙,谢谢...

4

2 回答 2

1

查看 html.parser 模块(http://docs.python.org/py3k/library/html.parser.html#module-html.parser)。

于 2012-02-23T02:38:34.797 回答
0

您可以使用 MiniDom 解析 XHTML/XML:

或者,Python 有一个内置的 HTMLParser:

于 2012-02-23T02:35:21.343 回答