我正在寻找一种将 HTML 表格干净地转换为可读纯文本的方法。
即给定一个输入:
<table>
<tr>
<td>Height:</td>
<td>200</td>
</tr>
<tr>
<td>Width:</td>
<td>440</td>
</tr>
</table>
我期望输出:
Height: 200
Width: 440
我宁愿不使用外部工具,例如w3m -dump file.html
,因为它们是 (1) 依赖于平台的,(2) 我希望对过程有一些控制,以及 (3) 我认为它可以单独使用 Python,无论是否有额外的模块。
我不需要任何自动换行或可调整的单元格分隔符宽度。将制表符用作单元格分隔符就足够了。
更新
对于旧用例来说,这是一个老问题。鉴于pandas 提供了 read_html 方法,我目前的答案肯定是基于 pandas 的。