2

我刚刚使用 iTextSharp 从 pdf 中获取所有文本,现在我需要将该文本拆分为单词。我曾经使用 Acrobat 库,它会自动将其分成单词(使用getPageNthWord())。

我不知道使用了哪些标准,但现在我需要知道如何将文本拆分为单词。我将拆分不同语言的文本,因此我需要拆分为每个可能的分隔符字符。

我看到了该方法Char.IsSeparator(),但是对每个字符都使用了这种平均循环,这将是低效的。

到目前为止,我所得到的是手动指定要在以下位置使用的分隔符.Split()

separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()

有一些地方可以检索常见的分隔符吗?

4

1 回答 1

2

您可以使用带有 null 参数的string.Split 方法:

如果 separator 参数为 null 或不包含任何字符,则假定空白字符为分隔符。空白字符由 Unicode 标准定义,如果将它们传递给 Char.IsWhiteSpace 方法,则返回 true。

或者您可以按照MSDN 示例获取所有char.IsSeparator()字符。

于 2013-10-08T08:51:07.627 回答