0

我正在处理大量的 html 文档。我的任务之一是从文档中提取所有文本。我已经走了很远,但现在我被难住了,因为使用表格作为容器/格式化结构来获取本质上不是数字的信息

我的目标是忽略-留下-如果它是数字字段表,则不提取“表”

我正准备通过获取表格来实现基于粗暴规则的方法,如果超过一定百分比的 td.text_content() 可以分类为数字,我将决定该表格是数值表格

我想知道是否有人可以提出更好的方法

4

1 回答 1

0

我建议进行上下文数据解析,例如由IBM 的 Watson实现,但我认为否则不可能对表进行分类。您可以发布数字和非数字表的 html 示例吗?我会在他们发布时更新我的​​答案。

于 2011-08-04T05:15:27.257 回答