19

我正在用 nltk 标记文本,只是输入 wordpunct_tokenizer 的句子。这会拆分收缩(例如,'don't' 到 'don' +" ' "+'t'),但我想将它们保留为一个词。我正在改进我的方法,以便对文本进行更测量和更精确的标记化,因此除了简单的标记化之外,我还需要更深入地研究 nltk 标记化模块。

我猜这很常见,我想从以前可能不得不处理特定问题的其他人那里得到反馈。

编辑:

是的,我知道这是一个一般性的问题

另外,作为 nlp 的新手,我是否需要担心宫缩?

编辑:

SEprTokenizer 或 TreeBankWordTokenizer 似乎可以满足我现在正在寻找的功能。

4

3 回答 3

13

您使用哪种标记器实际上取决于您接下来要做什么。正如inspectorG4dget 所说,一些词性标注器处理分裂收缩,在这种情况下分裂是一件好事。但也许这不是你想要的。要决定哪种标记器最好,请考虑下一步需要什么,然后将您的文本提交到http://text-processing.com/demo/tokenize/以查看每个 NLTK 标记器的行为方式。

于 2012-07-06T01:39:05.470 回答
2

因为缩略词的数量非常少,一种方法是搜索并将所有缩略词替换为完全等效的(例如:“不要”到“不要”),然后将更新的句子输入 wordpunct_tokenizer。

于 2012-07-06T02:44:16.270 回答
2

我以前在这个项目上与 NLTK 合作过。当我这样做时,我发现考虑宫缩很有用。

但是,我没有编写自定义标记器,我只是在 POS 标记后处理它。

我怀疑这不是您正在寻找的答案,但我希望它有所帮助

于 2012-07-05T19:54:53.540 回答