基础知识
在研究实际问题之前,让我们弄清楚定义。
假设我们的语料库包含 3 个文档(分别为 d1、d2 和 d3):
corpus = ["this is a red apple", "this is a green apple", "this is a cat"]
词频 (tf)
tf (of a word) 定义为一个单词在文档中出现的次数。
tf(word, document) = count(word, document) # Number of times word appears in the document
tf 是为文档级别的单词定义的。
tf('a',d1) = 1 tf('a',d2) = 1 tf('a',d3) = 1
tf('apple',d1) = 1 tf('apple',d2) = 1 tf('apple',d3) = 0
tf('cat',d1) = 0 tf('cat',d2) = 0 tf('cat',d3) = 1
tf('green',d1) = 0 tf('green',d2) = 1 tf('green',d3) = 0
tf('is',d1) = 1 tf('is',d2) = 1 tf('is',d3) = 1
tf('red',d1) = 1 tf('red',d2) = 0 tf('red',d3) = 0
tf('this',d1) = 1 tf('this',d2) = 1 tf('this',d3) = 1
使用原始计数存在一个问题,即tf
较长文档中的单词值与较短文档相比具有较高的值。这个问题可以通过除以文档长度(相应文档中的单词数)来归一化原始计数值来解决。这称为l1
标准化。文档d1
现在可以用语料库词汇表中所有单词的tf vector
所有值来表示。tf
还有另一种称为 normalizaiton 的l2
方法,它使l2
文档的 tf 向量的范数等于 1。
tf(word, document, normalize='l1') = count(word, document)/|document|
tf(word, document, normalize='l2') = count(word, document)/l2_norm(document)
|d1| = 5, |d2| = 5, |d3| = 4
l2_norm(d1) = 0.447, l2_norm(d2) = 0.447, l2_norm(d3) = 0.5,
代码:tf
corpus = ["this is a red apple", "this is a green apple", "this is a cat"]
# Convert docs to textacy format
textacy_docs = [textacy.Doc(doc) for doc in corpus]
for norm in [None, 'l1', 'l2']:
# tokenize the documents
tokenized_docs = [
doc.to_terms_list(ngrams=1, named_entities=True, as_strings=True, filter_stops=False, normalize='lower')
for doc in textacy_docs]
# Fit the tf matrix
vectorizer = textacy.Vectorizer(apply_idf=False, norm=norm)
doc_term_matrix = vectorizer.fit_transform(tokenized_docs)
print ("\nVocabulary: ", vectorizer.vocabulary_terms)
print ("TF with {0} normalize".format(norm))
print (doc_term_matrix.toarray())
输出:
Vocabulary: {'this': 6, 'is': 4, 'a': 0, 'red': 5, 'apple': 1, 'green': 3, 'cat': 2}
TF with None normalize
[[1 1 0 0 1 1 1]
[1 1 0 1 1 0 1]
[1 0 1 0 1 0 1]]
Vocabulary: {'this': 6, 'is': 4, 'a': 0, 'red': 5, 'apple': 1, 'green': 3, 'cat': 2}
TF with l1 normalize
[[0.2 0.2 0. 0. 0.2 0.2 0.2 ]
[0.2 0.2 0. 0.2 0.2 0. 0.2 ]
[0.25 0. 0.25 0. 0.25 0. 0.25]]
Vocabulary: {'this': 6, 'is': 4, 'a': 0, 'red': 5, 'apple': 1, 'green': 3, 'cat': 2}
TF with l2 normalize
[[0.4472136 0.4472136 0. 0. 0.4472136 0.4472136 0.4472136]
[0.4472136 0.4472136 0. 0.4472136 0.4472136 0. 0.4472136]
[0.5 0. 0.5 0. 0.5 0. 0.5 ]]
矩阵中的行tf
对应于文档(因此我们的语料库有 3 行),列对应于词汇表中的每个单词(词汇表中显示的单词的索引)
逆文档频率 (idf)
有些词比其他词传达的信息少。例如,像 the, a, an, this 这样的词是非常常见的词,它们传达的信息非常少。idf 是衡量单词重要性的指标。我们认为与出现在少数文档中的单词相比,出现在许多文档中的单词信息量较少。
idf(word, corpus) = log(|corpus| / No:of documents containing word) + 1 # standard idf
直观地为我们的语料库idf(apple, corpus) < idf(cat,corpus)
idf('apple', corpus) = log(3/2) + 1 = 1.405
idf('cat', corpus) = log(3/1) + 1 = 2.098
idf('this', corpus) = log(3/3) + 1 = 1.0
代码:idf
textacy_docs = [textacy.Doc(doc) for doc in corpus]
tokenized_docs = [
doc.to_terms_list(ngrams=1, named_entities=True, as_strings=True, filter_stops=False, normalize='lower')
for doc in textacy_docs]
vectorizer = textacy.Vectorizer(apply_idf=False, norm=None)
doc_term_matrix = vectorizer.fit_transform(tokenized_docs)
print ("\nVocabulary: ", vectorizer.vocabulary_terms)
print ("standard idf: ")
print (textacy.vsm.matrix_utils.get_inverse_doc_freqs(doc_term_matrix, type_='standard'))
输出:
Vocabulary: {'this': 6, 'is': 4, 'a': 0, 'red': 5, 'apple': 1, 'green': 3, 'cat': 2}
standard idf:
[1. 1.405 2.098 2.098 1. 2.098 1.]
词频-逆文档频率(tf-idf):tf-idf 是衡量一个词在语料库文档中的重要性的指标。使用其 id 加权的词的 tf 为我们提供了该词的 tf-idf 度量。
tf-idf(word, document, corpus) = tf(word, docuemnt) * idf(word, corpus)
tf-idf('apple', 'd1', corpus) = tf('apple', 'd1') * idf('apple', corpus) = 1 * 1.405 = 1.405
tf-idf('cat', 'd3', corpus) = tf('cat', 'd3') * idf('cat', corpus) = 1 * 2.098 = 2.098
代码:tf-idf
textacy_docs = [textacy.Doc(doc) for doc in corpus]
tokenized_docs = [
doc.to_terms_list(ngrams=1, named_entities=True, as_strings=True, filter_stops=False, normalize='lower')
for doc in textacy_docs]
print ("\nVocabulary: ", vectorizer.vocabulary_terms)
print ("tf-idf: ")
vectorizer = textacy.Vectorizer(apply_idf=True, norm=None, idf_type='standard')
doc_term_matrix = vectorizer.fit_transform(tokenized_docs)
print (doc_term_matrix.toarray())
输出:
Vocabulary: {'this': 6, 'is': 4, 'a': 0, 'red': 5, 'apple': 1, 'green': 3, 'cat': 2}
tf-idf:
[[1. 1.405 0. 0. 1. 2.098 1. ]
[1. 1.405 0. 2.098 1. 0. 1. ]
[1. 0. 2.098 0. 1. 0. 1. ]]
现在来回答问题:
(1)我怎样才能得到这个词对语料库的TF-IDF,而不是每个字符?
如上所见,没有tf-idf
独立定义tf-idf
的词是相对于语料库中的文档的。
(2) 如何提供自己的语料库并将其作为参数指向?
如以上示例所示。
- 使用 textacy.Doc api 将文本文档转换为 textacy Docs
- Tokenzie textacy.Doc 的使用 to_terms_list 方法。(使用这种方法,您可以在词汇表中添加 unigram、bigram 或 trigram,过滤掉停用词m 规范化文本等)
- 使用 textacy.Vectorizer 从标记化文档创建术语矩阵。返回的术语矩阵是
tf (raw counts): apply_idf=False, norm=None
tf (l1 normalized): apply_idf=False, norm='l1'
tf (l2 normalized): apply_idf=False, norm='l2'
tf-idf (standard): apply_idf=True, idf_type='standard'
(3) TF-IDF可以用在句子层面吗?即:这句话的术语相对于语料库的相对频率是多少。
是的,当且仅当您将每个句子视为单独的文档时,您可以。在这种情况下tf-idf
,相应文档的向量(整行)可以被视为文档的向量表示(在您的情况下是单个句子)。
对于我们的语料库(实际上每个文档包含一个句子),与向量 d1 和 d3 相比,d1 和 d2 的向量表示应该接近。让我们检查余弦相似度并查看:
cosine_similarity(doc_term_matrix)
输出
array([[1. , 0.53044716, 0.35999211],
[0.53044716, 1. , 0.35999211],
[0.35999211, 0.35999211, 1. ]])
正如你所看到的 cosine_similarity(d1,d2) = 0.53 和 cosine_similarity(d1,d3) = 0.35,所以确实 d1 和 d2 比 d1 和 d3 更相似(1 完全相似,0 不相似 - 正交向量)。
一旦你训练了你Vectorizer
,你就可以将训练过的对象腌制到磁盘上供以后使用。
结论
tf
一个词在文档级别,idf
一个词在语料库级别tf-idf
,一个词在与语料库相关的文档中。它们非常适合文档(或当文档由单个句子组成时的句子)的矢量表示。如果您对单词的向量表示感兴趣,请探索诸如(word2vec、fasttext、glove 等)的词嵌入。