python - Python NLTK 中标记化文本和普通文本之间的区别

Question

我正在使用 WordPunct Tokenizer 来标记这句话：

في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة فسي ادور شيء

我的代码是：

import re
import nltk
sentence= " في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.tokenize.wordpunct_tokenize(sentence)
print " ".join(wordsArray)

我注意到打印输出与输入语句相同，那么为什么要使用分词器呢？此外，使用令牌文件或普通文本文件创建机器翻译系统 (MOSES) 会有什么不同吗？

score 0 · Accepted Answer

标记器的输出是标记列表 ( wordsArray)。您所做的是使用以下命令再次将列表中的标记加入一个字符串：

print " ".join(wordsArray)

将此替换为：

print wordsArray

您关于 MOSES 的第二个问题不清楚，请尝试更具体。

python - Python NLTK 中标记化文本和普通文本之间的区别

1 回答 1

Related

Reference