我有一个 HTML 文件(以 utf-8 编码)。我用codecs.open()
. 文件架构是:
<html>
// header
<body>
// some text
<table>
// some rows with cells here
// some cells contains tables
</table>
// maybe some text here
<table>
// a form and other stuff
</table>
// probably some more text
</body></html>
我只需要检索第一个表(丢弃带有表单的表)。省略<table>
对应的 first 之前和之后的所有输入</table>
。一些单元格还包含段落、粗体和脚本。主表的每一行不超过一个嵌套表。
如何提取它以获取行列表,其中每个元素包含普通(unicode 字符串)单元格的数据和每个嵌套表的行列表?嵌套层数不超过 1 层。
我尝试了 HTMLParse、PyParse 和 re 模块,但无法正常工作。我对 Python 很陌生。