情况如下:我有一系列又大又胖的 PDF 文件,充满图像和随机分布的文本 - 这些是大量产品的巨大促销价目表的部分。我需要的是对每个 PDF 文件文本中的所有目录代码进行模式匹配,并用指向在线商店中相应页面的超链接将其包装起来。
所以任务非常简单——扫描一个 PDF 文件中的所有纯文本10
数字序列,并将它们转换为 href 为http://something?code=[match]
.
如果可能的话,我也更愿意将它放在一个 PHP 脚本中,但任何语言都可以。我有一种直觉,甚至闪光也可能是一种选择。
有任何想法吗?提前致谢。
编辑:
一些答案正在教我 pcre 语法。这里的问题是我需要在 PDF 文件中进行搜索和替换。所以问题是双重的。假设我们将在 PHP 中执行此操作:
- 您如何在 PHP 中读取/写入 PDF?
- 由于 PDF 不是纯文本文件,我不能只对它们进行正则表达式,而且我也相信 PDF 链接不会与文本捆绑在一起,而是作为区域分开。这也意味着,如果我只知道匹配代码在页面上的位置,我可能会在目录代码字符的坐标上覆盖一个活动矩形。
你怎么看?其他语言也是一种选择。
谢谢。