2

给定一个 HTML 表格,其中没有一个单元格被标识为“< th >”或“标题”单元格,我想自动检测该表格是“垂直”表格还是“水平”表格。

例如:这是一个水平表:

在此处输入图像描述

这是一个垂直表:

在此处输入图像描述

当然请记住,“粗体”属性以及阴影和任何样式属性在分类时都将不可用。

我正在考虑通过统计方法来解决这个问题,我可以手写几个特征,比如“如果第一行有数字,但第一列没有。那可能是一个垂直表”,并为每个特征打分并结合起来决定表方向的类。

你就是这样处理这样一个问题的吗?我以前没有使用过任何基于统计的算法,我不确定对于这样的问题什么是最佳的

4

2 回答 2

1

这是一个有点令人困惑的问题。您在询问 ML 方法,但您似乎还没有创建训练/交叉验证/测试集。如果没有数据预处理步骤,任何关于 ML 方法的讨论都是无用的。

如果我是对的并且您还没有创建数据集- 给我们更多关于数据的信息(如果你看一个例子,你怎么知道表格是垂直的还是水平的?,你有多少数据,是始终确定 s 表是否垂直/水平,...)

如果您已经创建了训练集/交叉验证集/测试集,请向我们提供更多关于训练集的详细信息(特征是什么、示例数量、您是否需要白盒解决方案(您可以了解为什么 ML 模型会给您这个结果) ),...)

于 2013-01-01T15:28:49.677 回答
0

表的域有多通用?我知道一些 Web 表模式识别算法使用来自通用知识模式(如 Freebase)的类型、属性和实例数据来尝试识别与列关联的属性。您可以尝试在分类器中利用这些知识。

如果您想在没有任何外部信息的情况下执行此操作,则需要一堆手工标记的水平和垂直示例。

您说“当然”字体信息不可用,但我不会这么快就忽略它,因为它可能是非常有用的信息的来源。你确定你不能从管道中更远一点的地方获取你的数据,以便你可以访问这些信息吗?

于 2013-01-02T13:15:25.523 回答