我有这个大文本(读大)。我需要标记每个单词,分隔每个非字母。我使用 StringTokenizer 一次读取一个单词。但是,当我正在研究如何编写分隔符字符串(“每个非字母”)而不是执行以下操作时:
new StringTokenizer(text, "\" ();,.'[]{}!?:”“…\n\r0123456789 [etc etc]");
我发现每个人基本上都讨厌 StringTokenizer(为什么?)。
那么,我可以用什么代替呢?不要建议 String.split 因为它会复制我的大文本。我需要逐字阅读文本并为每个非字母定界。我自己构建东西更容易还是有一些最佳实践方法来解决这个问题?
提前致谢!