1

我有数百个 OCRed 法律期刊的文本文件,我最终用 TEI-XML 进行编码。我正在使用正则表达式进行大量清洁。我一直在使用 Oxygen XML 编辑器进行此清理,它对于单个查找和替换替换做得很好,但我想使用某种脚本,以便我可以重用一系列数十个替换来处理页眉、脚注、常见错误等。

我需要执行的替换包括换行符。例如,我可能有这样的文字:

<pb/>






                             - 6-
 II faut preparer l'opinion publique et 'habituer A considérer la felon
 dont les lois doivent étre faites.

我希望变成这样:

<pb n="6"/>
II faut preparer l'opinion publique et 'habituer A considérer la felon dont les lois doivent étre faites.

据我所知,换行符对这种替代品构成了挑战。例如,请参阅我使用的这个问题gsub_dirR - 使用 regex 查找/替换换行符Wiktor Stribiżew提出的解决方案适用于我的狭隘问题,但我不知道如何推广。(这里提供的解决方案似乎也是如此:R Find and replace multiple scripts at once

例如,除了一个可行的替换列表,如

gsub_dir(dir = "bslc", pattern = "(\\w)6 ", replacement = "\\1é ")
gsub_dir(dir = "bslc", pattern = "(\\w)6(\\w)", replacement = "\\1é\\2")
gsub_dir(dir = "bslc", pattern = "(\\w)6 ", replacement = "\\1é ")

不幸的是,不能使用

gsub_dir(dir = "bslc", pattern = "<pb/>\\n+ +- ?(\\d+) ?- ", replacement = "<pb n=\\1/>")

我也四处寻找 Python 解决方案,但运气不佳。有些人使用FAR - Find and Replace之类的应用程序,但像 Oxygen 一样,它们不允许在文件文件夹上轻松重用替换列表。

4

0 回答 0