image - 从基于图像的文档中提取表格

翻译自：https://stackoverflow.com/questions/53497014 2018-11-27T09:56:31.073

287 次

1

是否有任何有效的算法/技术可以从基于图像的文档中提取表格。我们还有 XML 形式的 Abbyy OCR 输出，其中包含文档中文本的坐标信息。我们需要解决两个主要问题：

识别文档中的表格。（表格结构不固定。可以有不同的布局，有或没有边界线）
从表格中提取文本。

1 回答 1

0

获取文档的xml文件。
开始迭代 xml 中的行元素。
将内容添加到列表中。
将列表转换为 DataTable。

XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
    foreach(XmlNode Xr in xn.ChildNodes)
    {
        if(Xr.Name ="row")
        {
            string rowvalue = xr.InnerText;
            youlist.Add(rowvalue);
        }
    }
}

于 2020-01-22T18:08:24.667 回答