我正在研究一个将几十个 html 文件转换为文本文件的项目,并编写了完成这项工作的 replace-regexp 公式。问题是,如何连续应用所有六个,然后对目录中的几十个文件中的每一个都这样做?我已经附加了我的组织解释,其中包括正则表达式,但请记住,这些不是问题;他们做他们的工作(在翻译^J等之后)。问题是如何以编程方式将所有六个应用到目录中的每个(HTML)文件?
* 1. Delete all until >General Conference<
\(.*^J\)*.*?General Conference
* 2. Delete all <p class="copyright"> and after
^.*<p class="copy\(.*^J\)*
* 3. Strip all tags
\(<.*?>\)*
* 4. Remove whitespace lines
^\s-*^J
* 5. Remove ugly numeric identifier
^\s-*[0-9].*^J
* 6. Remove amp
& -> &