c# - 将文本拆分为单词：分隔符

Question

我刚刚使用 iTextSharp 从 pdf 中获取所有文本，现在我需要将该文本拆分为单词。我曾经使用 Acrobat 库，它会自动将其分成单词（使用getPageNthWord()）。

我不知道使用了哪些标准，但现在我需要知道如何将文本拆分为单词。我将拆分不同语言的文本，因此我需要拆分为每个可能的分隔符字符。

我看到了该方法Char.IsSeparator()，但是对每个字符都使用了这种平均循环，这将是低效的。

到目前为止，我所得到的是手动指定要在以下位置使用的分隔符.Split()：

separators = " .,;:-(){}[]/\'""?¿!¡" & Convert.ToChar(9) & NewLine()

有一些地方可以检索常见的分隔符吗？

score 2 · Accepted Answer

您可以使用带有 null 参数的string.Split 方法：

如果 separator 参数为 null 或不包含任何字符，则假定空白字符为分隔符。空白字符由 Unicode 标准定义，如果将它们传递给 Char.IsWhiteSpace 方法，则返回 true。

或者您可以按照MSDN 示例获取所有char.IsSeparator()字符。

1 回答 1