0

我有几百个 .docx 文档要转换为降价。我正在使用 textutil 将 .docx 转换为 html 并使用 Pandoc 将 html 转换为 Markdown。

我遇到的问题是原始 .docx 文件包含 dropcaps。在文本文件中,我现在将第一个字母(即首字母大写)与其段落分开,并用换行符分隔。它看起来像这样:

T

he following five basic pre-conditions are essential...

我正在使用 mac (10.6.8) 和 textmate。Textmate 允许使用正则表达式进行查找和替换。

如何删除换行符并将分隔的字母与其段落的其余部分重新连接?

4

1 回答 1

0

对于搜索,试试这个:

^([A-Z])[\r\n]+(\w+)\b

对于替换:

$1$2
于 2012-04-23T19:12:59.243 回答