这个问题的“棘手”部分是我所说的字母不仅仅是26个字符。它还应该包括任何字母,包括重音字符和希伯来语的 alibeth 等。
为什么我需要它们?
我想将文本拆分为单词。
像拉丁字母、希伯来的 alibeth、阿拉伯的 abjads 等字母由空格分隔。
汉字是一无所有的。
所以我认为我应该用任何不是字母的东西来分隔文本。
换句话说,a、b、c、d、é 都可以。
駅,南,口,第,自,転,车.,3,5,6 不是,所有这些分隔符都应该是它自己的话。或者类似的东西。
简而言之,我想检测一个字符本身是否是一个单词,或者可以是一个单词的一部分。
我尝试了什么?
好吧,您可以在这里查看我很久以前提出的问题: 如果某些字符是中文,我们如何将 utf-8 字符分成单词?
我在那里实现了唯一的答案,但后来我发现汉字没有分开。为什么不根据无分裂?好吧,这意味着字母表也被拆分了。
如果所有这些字母“粘”在一起,我可以根据 UTF 将它们分开,那也很好。
如果某些字符是中文,我将只使用如何将 utf-8 字符分成单词的答案? 并“拉出”所有非字母字符。
不是一个完美的解决方案,但对我来说已经足够了,因为西方字符和中文字符很少出现在同一个文本上。