1

上周,我被要求为盲人构建一个应用程序,以编程方式填写 PDF 文档。他遇到的问题是,如果文档中的字段没有正确标记,那么他就无法将他的签名和其他信息放入文档中的正确位置。

我的第一种方法是尝试使用 iTextSharp 阅读文档,然后将他的签名插入最有可能是签名框的字段中:

public string[] MassFieldEdit(IDictionary<string, string> userData, string originalDocument, string edittedDocument, bool flatten)
        {
            PdfReader reader = new PdfReader(originalDocument);
            reader.SelectPages("1-" + reader.NumberOfPages.ToString());
            using (PdfStamper stamper = new PdfStamper(reader, new FileStream(edittedDocument, FileMode.Create)))
            {
                AcroFields form = stamper.AcroFields;
                ICollection<string> fieldKeys = form.Fields.Keys;
                List<string> leftover = new List<string>(fieldKeys);
                foreach (string fieldKey in fieldKeys)
                {
                    foreach (KeyValuePair<string, string> s in user)
                    {
                        //Replace Form field with my custom data
                        if (fieldKey.ToLower().Contains(s.Key.ToLower()))
                        {
                            form.SetField(fieldKey, s.Value);
                            leftover.Remove(fieldKey);
                        }
                    }
                }
                //The below will make sure the fields are not editable in
                //the output PDF.
                stamper.FormFlattening = flatten;
                return leftover.ToArray();
            }
        }

这通过获取一个字典集,键是一个单词或短语,根据 PDF 字段检查它,然后如果该字段与键中的单词或短语匹配,则将值插入到字段中。

我的程序编辑它之前的签名框。

之后的签名框。

但是我现在遇到的问题是,如果不存在任何字段,那么尽管它可能在虚线旁边有“在此处签名”,但是如果不知道虚线的确切位置,就无法将文本插入到虚线上,也不能我的用户选择虚线,因为这违背了程序的要点。

我查看了许多以前的问题和答案,包括:

我需要一种方法来检测签名行,然后将他的名字插入到签名行中,这比在字段名称上进行拍摄更有把握。无论是在存在正确标记的字段的情况下,还是在签名行可能不超过一行显示“在此处签名”的文本的情况下。

4

1 回答 1

1

强大的解决方案(又名“努力工作的解决方案”)

  1. 实现 IEventListener(iText7 类)
  2. 使用 IEventListener 获取文本渲染指令和线条绘制操作的通知
  3. 渲染指令并不总是以逻辑(阅读)顺序出现。通过为这些对象实现一个比较器来解决这个问题
  4. 根据比较器排序
  5. 使用语言检测来确定语言(n-gram 方法很简单,但应该足够了)
  6. 字典攻击。查找以任何语言编写文档的所有表示“在此处签名”的单词的出现(因此步骤 5)
  7. 如果有多个候选者或没有候选者,请使用线条渲染指令来寻找臭名昭著的“虚线”的可能候选者

这种方法并不容易,但是对于识别pdf文件中的结构元素有很多研究。特别是,如果您运行 google 学者搜索,您会发现大量有用的文章,人们尝试检测表格、列表、段落等。

于 2017-08-07T07:11:25.887 回答