python - nltk 标记化和收缩

Question

我正在用 nltk 标记文本，只是输入 wordpunct_tokenizer 的句子。这会拆分收缩（例如，'don't' 到 'don' +" ' "+'t'），但我想将它们保留为一个词。我正在改进我的方法，以便对文本进行更测量和更精确的标记化，因此除了简单的标记化之外，我还需要更深入地研究 nltk 标记化模块。

我猜这很常见，我想从以前可能不得不处理特定问题的其他人那里得到反馈。

编辑：

是的，我知道这是一个一般性的问题

另外，作为 nlp 的新手，我是否需要担心宫缩？

编辑：

SEprTokenizer 或 TreeBankWordTokenizer 似乎可以满足我现在正在寻找的功能。

score 13 · Accepted Answer

您使用哪种标记器实际上取决于您接下来要做什么。正如inspectorG4dget 所说，一些词性标注器处理分裂收缩，在这种情况下分裂是一件好事。但也许这不是你想要的。要决定哪种标记器最好，请考虑下一步需要什么，然后将您的文本提交到http://text-processing.com/demo/tokenize/以查看每个 NLTK 标记器的行为方式。

score 2 · Accepted Answer

因为缩略词的数量非常少，一种方法是搜索并将所有缩略词替换为完全等效的（例如：“不要”到“不要”），然后将更新的句子输入 wordpunct_tokenizer。

score 2 · Accepted Answer

我以前在这个项目上与 NLTK 合作过。当我这样做时，我发现考虑宫缩很有用。

但是，我没有编写自定义标记器，我只是在 POS 标记后处理它。

我怀疑这不是您正在寻找的答案，但我希望它有所帮助

python - nltk 标记化和收缩

3 回答 3

Related

Reference