html - 如何使用 Python3.1 从 HTML 页面中提取数据？

Question

我在磁盘上本地存储了大约 1000 页，其中包含类似于以下示例的内容。

<html>
<body>
<li>User Dave<sup><a href="" title="" onClick="" class="">?</a></sup></li>
<li>UserID<sup><a href="" title="" onClick="" class="">?</a></sup>: 00000001</li>
</body>
</html>

我需要帮助弄清楚如何从第 3 行提取字符串 Dave 并将其加载到 UserName 列表中。另外，我需要从第四行中提取 00000001 并将其加载到 UserID 列表中。

请帮忙，谢谢...

score 1 · Accepted Answer

查看 html.parser 模块（http://docs.python.org/py3k/library/html.parser.html#module-html.parser）。

score 0 · Accepted Answer

您可以使用 MiniDom 解析 XHTML/XML：

或者，Python 有一个内置的 HTMLParser：

http://docs.python.org/library/htmlparser.html

html - 如何使用 Python3.1 从 HTML 页面中提取数据？

2 回答 2

Related

Reference