我正在处理大量的 html 文档。我的任务之一是从文档中提取所有文本。我已经走了很远,但现在我被难住了,因为使用表格作为容器/格式化结构来获取本质上不是数字的信息
我的目标是忽略-留下-如果它是数字字段表,则不提取“表”
我正准备通过获取表格来实现基于粗暴规则的方法,如果超过一定百分比的 td.text_content() 可以分类为数字,我将决定该表格是数值表格
我想知道是否有人可以提出更好的方法
我正在处理大量的 html 文档。我的任务之一是从文档中提取所有文本。我已经走了很远,但现在我被难住了,因为使用表格作为容器/格式化结构来获取本质上不是数字的信息
我的目标是忽略-留下-如果它是数字字段表,则不提取“表”
我正准备通过获取表格来实现基于粗暴规则的方法,如果超过一定百分比的 td.text_content() 可以分类为数字,我将决定该表格是数值表格
我想知道是否有人可以提出更好的方法
我建议进行上下文数据解析,例如由IBM 的 Watson实现,但我认为否则不可能对表进行分类。您可以发布数字和非数字表的 html 示例吗?我会在他们发布时更新我的答案。