python - 在 lxml 中对表进行分类

Question

我正在处理大量的 html 文档。我的任务之一是从文档中提取所有文本。我已经走了很远，但现在我被难住了，因为使用表格作为容器/格式化结构来获取本质上不是数字的信息

我的目标是忽略-留下-如果它是数字字段表，则不提取“表”

我正准备通过获取表格来实现基于粗暴规则的方法，如果超过一定百分比的 td.text_content() 可以分类为数字，我将决定该表格是数值表格

我想知道是否有人可以提出更好的方法

score 0 · Accepted Answer

我建议进行上下文数据解析，例如由IBM 的 Watson实现，但我认为否则不可能对表进行分类。您可以发布数字和非数字表的 html 示例吗？我会在他们发布时更新我的答案。

1 回答 1