我正在用 nltk 标记文本,只是输入 wordpunct_tokenizer 的句子。这会拆分收缩(例如,'don't' 到 'don' +" ' "+'t'),但我想将它们保留为一个词。我正在改进我的方法,以便对文本进行更测量和更精确的标记化,因此除了简单的标记化之外,我还需要更深入地研究 nltk 标记化模块。
我猜这很常见,我想从以前可能不得不处理特定问题的其他人那里得到反馈。
编辑:
是的,我知道这是一个一般性的问题
另外,作为 nlp 的新手,我是否需要担心宫缩?
编辑:
SEprTokenizer 或 TreeBankWordTokenizer 似乎可以满足我现在正在寻找的功能。