我定期收到编码的 PDF 文件。编码是这样工作的:
- PDF 可以在 Acrobat Reader 中正确显示
- 全选并通过 Acrobat Reader 复制测试
- 并粘贴到文本编辑器中
- 将显示内容已编码
所以,例子是:
13579 -> 3579;
hello -> jgnnq
它基本上是 ASCII 字符的偏移量(可能是交换)。
问题是当我只能访问几个样本时如何自动找到偏移量。我不能确定编码偏移量是否改变了。我所知道的是一些文本通常(如果不是总是)会出现在 PDF 中,例如“姓名:”、“摘要:”、“总计:”。
谢谢!
编辑:感谢您的反馈。我会尝试将问题分解为更小的问题:
第 1 部分:如何检测字符串中的相同部分?