我的问题归结为,我有同一个 HTML 页面的多个版本,我想知道这个页面是否使用 Perl 进行了更改。这些文件包含 html/javascript 和书面英语。当用户决定他们想要跟踪哪些页面的更改时,这些更改将在 Web 界面中显示给用户。包含网站的服务器上的 Perl 脚本会随着时间的推移下载这些页面并检查它们是否存在差异。
到目前为止,我可以确定页面是否已更改,但不能确定添加或删除的内容。这是通过将文件格式化为仅在它们自己的行上的单词并逐行比较来完成的。我知道更改很可能会被写入,即添加或删除了一个新句子。我希望能够查明这种变化。
我今天花了一段时间尝试使用 Text::ParagraphDiff 但无济于事。我最终得到一个长文件,它多次重复这两个内容但没有突出显示的更改。
所以我想我会问是否有人知道最佳实践或首选方法。我害怕我将不得不开发一些冗长的算法来跟踪文件何时更改以及它们何时再次匹配。