我在 SO: N-grams: Explanation + 2 applications上找到了这个先前的问题。OP给出了这个例子并询问它是否正确:
Sentence: "I live in NY."
word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"
When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:
word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, ...]
答案部分中有人确认这是正确的,但不幸的是,我有点迷失了,因为我没有完全理解所说的一切!我正在使用 LingPipe 并按照教程说明我应该选择 7 到 12 之间的值 - 但没有说明原因。
什么是好的 nGram 值?在使用像 LingPipe 这样的工具时我应该如何考虑它?
编辑:这是教程:http ://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html