我正在构建一个 Web 应用程序,它处理网页中的文本,添加指向某些实体的链接,然后完全按照原样重新显示页面,但添加了一些链接。我的服务器端代码在 Perl 和 Python 中,我目前正在使用 HTML::Parser 从页面中提取文本。我可以毫无问题地清理标记、提取和处理文本,但我想完全按原样显示原始页面,只是在以前未链接的文本中添加了一些链接。
我希望找到最好的方法来重新显示完全相同的页面,并将链接添加到文本中的某些单词或短语。所有原始标记都应完全保留在提取文本之前的状态。
我已经彻底搜索过,但我找不到这个问题的精确解决方案。任何帮助将不胜感激。