1

是否有任何有效的算法/技术可以从基于图像的文档中提取表格。我们还有 XML 形式的 Abbyy OCR 输出,其中包含文档中文本的坐标信息。我们需要解决两个主要问题:

  1. 识别文档中的表格。(表格结构不固定。可以有不同的布局,有或没有边界线)
  2. 从表格中提取文本。
4

1 回答 1

0
  • 获取文档的xml文件。

  • 开始迭代 xml 中的行元素。

  • 将内容添加到列表中。
  • 将列表转换为 DataTable。
XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
    foreach(XmlNode Xr in xn.ChildNodes)
    {
        if(Xr.Name ="row")
        {
            string rowvalue = xr.InnerText;
            youlist.Add(rowvalue);
        }
    }
}
于 2020-01-22T18:08:24.667 回答