我刚刚使用 iTextSharp 从 pdf 中获取所有文本,现在我需要将该文本拆分为单词。我曾经使用 Acrobat 库,它会自动将其分成单词(使用getPageNthWord()
)。
我不知道使用了哪些标准,但现在我需要知道如何将文本拆分为单词。我将拆分不同语言的文本,因此我需要拆分为每个可能的分隔符字符。
我看到了该方法Char.IsSeparator()
,但是对每个字符都使用了这种平均循环,这将是低效的。
到目前为止,我所得到的是手动指定要在以下位置使用的分隔符.Split()
:
separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()
有一些地方可以检索常见的分隔符吗?