我想标记一个具有相邻单词的句子,如下所示:
“这是一个 Iwanttotokenize 的样本字符串。”
在上面的例子中,有两种情况“samplestring”和“Iwanttotokenize”出现相邻的单词。知道如何制作这些单词的标记吗?
对于这句话,理想的输出应该是(每行一个标记):这是我要标记的示例字符串
我建议使用http://www.sil.org/linguistics/wordlists/english之类的单词列表 如果内存允许,将其打包到 HashSet 并使用函数 contains() (针对哈希比较进行了优化)
首先,使用 StringTokenizer 对字符串进行标记。对于每个标记,检查它是否以列表中的单词开头和/或结尾。如果它以该列表的一个单词开头和结尾,并且没有留下任何字母,则在原始字符串中适当的地方插入空格并再次进行标记。