我有几百个 .docx 文档要转换为降价。我正在使用 textutil 将 .docx 转换为 html 并使用 Pandoc 将 html 转换为 Markdown。
我遇到的问题是原始 .docx 文件包含 dropcaps。在文本文件中,我现在将第一个字母(即首字母大写)与其段落分开,并用换行符分隔。它看起来像这样:
T
he following five basic pre-conditions are essential...
我正在使用 mac (10.6.8) 和 textmate。Textmate 允许使用正则表达式进行查找和替换。
如何删除换行符并将分隔的字母与其段落的其余部分重新连接?