python - 有没有比 lxml 更好的方法来解析 html 表

Question

我正在使用 html 文档并撕下表格以解析它们，如果它们被证明是正确的表格。我对结果感到满意——我的提取过程在超过 95% 的情况下成功地映射了行标签和列标题，在没有成功的情况下，我们可以识别问题并使用其他方法。

在我对 iternet 的扫描中，我了解到浏览器具有非常强大的“引擎”，即使底层的 htm 格式错误，也可以正确显示 htm 页面的内容。我们在解析表时遇到的问题与无法将标题与数据行分开，或者无法将行标签与一个或多个相邻数据值分开，然后无法正确解析出相邻数据值有关. （我们可能有两个数据值映射到一个列标题而不是两个相邻的列标题。也就是说，如果我有一个标记为苹果的列标题，然后一个标记为香蕉，我可能会将值“1125 12345”分配给香蕉（或苹果）列标题，而不是将值 1125 分配给苹果，将 12345 分配给香蕉。

正如我在一开始所说的那样——我们在 95% 的时间里都做对了，我们可以在输出中判断出什么时候出现问题。我开始认为我们已经尽可能地使用 html 中的逻辑和推理来清理这些，所以我开始怀疑我是否需要一种新方法。

有没有办法利用浏览器的“引擎”来帮助这个解析器。最终，如果浏览器可以正确显示列和行，以便它们正确显示在屏幕上，那么即使行和列跨度不一致（例如），也有一些技术可以处理。

感谢您的任何意见

score 2 · Accepted Answer

实际上，浏览器引擎在解析 HTML 时故意愚蠢，假设他们得到的只是勉强正确。lxml 和 BeautifulSoup 试图模仿这种愚蠢程度，因此它们是正确使用的工具。

score 2 · Accepted Answer

要“利用浏览器的‘引擎’”，此时最好的选择无疑是SeleniumRC——但它的主要优势在于“就像浏览器一样”处理javascript （对此几乎没有其他选择）；对于一个在逻辑上被简单破坏的表格，尽管它在渲染时可能“看起来”不错，浏览器（以及因此 Selenium）可能与 lxml 或 BeautifulSoup 一样无助。不过，可能值得您尝试一下。

python - 有没有比 lxml 更好的方法来解析 html 表

2 回答 2

Related

Reference