2

我有包含此类内容的 RTF 文件:

long_text_description_1     number1a        number1b        number1c
long_text_description_2     number2a        number2b        number2c
long_text_description_3                                     number3c
long_text_description_4     number4a        number4b        number4c
…

我需要提取没有颜色、字体和其他格式的纯原始文本。我唯一需要保留的是最基本的行/列信息,理想情况下我想要一个 CSV 文件。

我得到的文件包含所有格式:

{\cs18\lang1033\langfe1033\f0\b\i0\ul0\strike0\scaps0\fs15\afs15\charscalex100\expndtw0\cf1\dn0 number1a}

在仅保留行信息的同时删除所有 rtf 信息的最佳方法是什么?除非完全理解 RTF 格式,否则试图弄清楚许多正则表达式听起来很危险。

我在 Internet 上可以找到的内容主要集中在使用 iOS 中不可用的 Windows 语言和库。

4

1 回答 1

0

所有 rtf 标签都采用\xxx. 尝试使用像 "\\S+" 这样的正则表达式并删除所有匹配项或不替换。对于您的示例,您最终会得到{ number1a}这将删除任何反斜杠后跟任何字符。

于 2013-10-29T10:11:08.797 回答