php - 模式匹配 PDF 正文中的文本并使用 PHP 添加超链接

Question

情况如下：我有一系列又大又胖的 PDF 文件，充满图像和随机分布的文本 - 这些是大量产品的巨大促销价目表的部分。我需要的是对每个 PDF 文件文本中的所有目录代码进行模式匹配，并用指向在线商店中相应页面的超链接将其包装起来。

所以任务非常简单——扫描一个 PDF 文件中的所有纯文本10数字序列，并将它们转换为 href 为http://something?code=[match].

如果可能的话，我也更愿意将它放在一个 PHP 脚本中，但任何语言都可以。我有一种直觉，甚至闪光也可能是一种选择。

有任何想法吗？提前致谢。

编辑：

一些答案正在教我 pcre 语法。这里的问题是我需要在 PDF 文件中进行搜索和替换。所以问题是双重的。假设我们将在 PHP 中执行此操作：

您如何在 PHP 中读取/写入 PDF？
由于 PDF 不是纯文本文件，我不能只对它们进行正则表达式，而且我也相信 PDF 链接不会与文本捆绑在一起，而是作为区域分开。这也意味着，如果我只知道匹配代码在页面上的位置，我可能会在目录代码字符的坐标上覆盖一个活动矩形。

你怎么看？其他语言也是一种选择。

谢谢。

score 1 · Accepted Answer

替换 PDF 中的文本很困难，并且没有任何开源 PDF 解决方案支持此功能。

Apago (www.apago.com) 有一个已开发的商业解决方案，用于替换 PDF 文件中的文本。贺卡制造商使用它来修改定价、“MADE IN”文本、产品编号等。

score 0 · Accepted Answer

<?
$s="
http://something.com?code=3000 asdf text
http://something.com?code=5000 asdf
";
echo preg_replace('/(http:\/\/something\.com\?code=(\d+))/s', '<a href="$1">$2</a>',$s);
?>

输出 3000个 asdf 文本

5000自卫队

php - 模式匹配 PDF 正文中的文本并使用 PHP 添加超链接

2 回答 2

Related

Reference