给定一个 HTML 表格,其中没有一个单元格被标识为“< th >”或“标题”单元格,我想自动检测该表格是“垂直”表格还是“水平”表格。
例如:这是一个水平表:
这是一个垂直表:
当然请记住,“粗体”属性以及阴影和任何样式属性在分类时都将不可用。
我正在考虑通过统计方法来解决这个问题,我可以手写几个特征,比如“如果第一行有数字,但第一列没有。那可能是一个垂直表”,并为每个特征打分并结合起来决定表方向的类。
你就是这样处理这样一个问题的吗?我以前没有使用过任何基于统计的算法,我不确定对于这样的问题什么是最佳的