我正在使用 html 文档并撕下表格以解析它们,如果它们被证明是正确的表格。我对结果感到满意——我的提取过程在超过 95% 的情况下成功地映射了行标签和列标题,在没有成功的情况下,我们可以识别问题并使用其他方法。
在我对 iternet 的扫描中,我了解到浏览器具有非常强大的“引擎”,即使底层的 htm 格式错误,也可以正确显示 htm 页面的内容。我们在解析表时遇到的问题与无法将标题与数据行分开,或者无法将行标签与一个或多个相邻数据值分开,然后无法正确解析出相邻数据值有关. (我们可能有两个数据值映射到一个列标题而不是两个相邻的列标题。也就是说,如果我有一个标记为苹果的列标题,然后一个标记为香蕉,我可能会将值“1125 12345”分配给香蕉(或苹果)列标题,而不是将值 1125 分配给苹果,将 12345 分配给香蕉。
正如我在一开始所说的那样——我们在 95% 的时间里都做对了,我们可以在输出中判断出什么时候出现问题。我开始认为我们已经尽可能地使用 html 中的逻辑和推理来清理这些,所以我开始怀疑我是否需要一种新方法。
有没有办法利用浏览器的“引擎”来帮助这个解析器。最终,如果浏览器可以正确显示列和行,以便它们正确显示在屏幕上,那么即使行和列跨度不一致(例如),也有一些技术可以处理。
感谢您的任何意见