我正在尝试标记一些句子。例如句子:
String sentence = "The sky is blue. A cat is #blue.";
我将以下命令与 Open nlp 一起使用:
SimpleTokenizer tokenizer = SimpleTokenizer.INSTANCE;
String[] result = tokenizer.tokenize(sentence);
但我希望 opennlp 将 ' #
' 视为一个单词的字母。所以 ' #blue#
' 将是一个标记。
这个怎么做 ?