是否有任何有效的算法/技术可以从基于图像的文档中提取表格。我们还有 XML 形式的 Abbyy OCR 输出,其中包含文档中文本的坐标信息。我们需要解决两个主要问题:
- 识别文档中的表格。(表格结构不固定。可以有不同的布局,有或没有边界线)
- 从表格中提取文本。
获取文档的xml文件。
开始迭代 xml 中的行元素。
XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
foreach(XmlNode Xr in xn.ChildNodes)
{
if(Xr.Name ="row")
{
string rowvalue = xr.InnerText;
youlist.Add(rowvalue);
}
}
}