9

我已经使用 gensim 为 LDA 主题建模训练了一个语料库。

浏览 gensim 网站上的教程(这不是全部代码):

question = 'Changelog generation from Github issues?';

temp = question.lower()
for i in range(len(punctuation_string)):
    temp = temp.replace(punctuation_string[i], '')

words = re.findall(r'\w+', temp, flags = re.UNICODE | re.LOCALE)
important_words = []
important_words = filter(lambda x: x not in stoplist, words)
print important_words
dictionary = corpora.Dictionary.load('questions.dict')
ques_vec = []
ques_vec = dictionary.doc2bow(important_words)
print dictionary
print ques_vec
print lda[ques_vec]

这是我得到的输出:

['changelog', 'generation', 'github', 'issues']
Dictionary(15791 unique tokens)
[(514, 1), (3625, 1), (3626, 1), (3627, 1)]
[(4, 0.20400000000000032), (11, 0.20400000000000032), (19, 0.20263215848547525), (29, 0.20536784151452539)]

我不知道最后的输出将如何帮助我找到可能的主题question!!!

请帮忙!

4

3 回答 3

7

我在 python 中编写了一个函数,它为新查询提供了可能的主题:

def getTopicForQuery (question):
    temp = question.lower()
    for i in range(len(punctuation_string)):
        temp = temp.replace(punctuation_string[i], '')

    words = re.findall(r'\w+', temp, flags = re.UNICODE | re.LOCALE)

    important_words = []
    important_words = filter(lambda x: x not in stoplist, words)

    dictionary = corpora.Dictionary.load('questions.dict')

    ques_vec = []
    ques_vec = dictionary.doc2bow(important_words)

    topic_vec = []
    topic_vec = lda[ques_vec]

    word_count_array = numpy.empty((len(topic_vec), 2), dtype = numpy.object)
    for i in range(len(topic_vec)):
        word_count_array[i, 0] = topic_vec[i][0]
        word_count_array[i, 1] = topic_vec[i][1]

    idx = numpy.argsort(word_count_array[:, 1])
    idx = idx[::-1]
    word_count_array = word_count_array[idx]

    final = []
    final = lda.print_topic(word_count_array[0, 0], 1)

    question_topic = final.split('*') ## as format is like "probability * topic"

    return question_topic[1]

在进行此操作之前,请参考链接!

在代码的初始部分,查询正在被预处理,以便可以去除停用词和不必要的标点符号。

然后,加载使用我们自己的数据库制作的字典。

然后,我们将新查询的标记转换为词袋,然后通过训练模型topic_vec = lda[ques_vec]在哪里计算查询的主题概率分布,lda如上述链接中所述。

然后根据主题的概率对分布进行排序。然后用 显示概率最高的主题question_topic[1]

于 2013-04-30T13:41:25.233 回答
4

假设我们只需要以下代码片段概率最高的主题可能会有所帮助:

def findTopic(testObj, dictionary):
    text_corpus = []
    '''
     For each query ( document in the test file) , tokenize the 
     query, create a feature vector just like how it was done while training
     and create text_corpus
    '''
    for query in testObj:
        temp_doc = tokenize(query.strip())
        current_doc = []

        for word in range(len(temp_doc)):
            if temp_doc[word][0] not in stoplist and temp_doc[word][1] == 'NN':
                current_doc.append(temp_doc[word][0])

        text_corpus.append(current_doc)
    '''
     For each feature vector text, lda[doc_bow] gives the topic
     distribution, which can be sorted in descending order to print the 
     very first topic
    ''' 
    for text in text_corpus:
        doc_bow = dictionary.doc2bow(text)
        print text
        topics = sorted(lda[doc_bow],key=lambda x:x[1],reverse=True)
        print(topics)
        print(topics[0][0])

tokenize 函数删除标点符号/域特定字符以过滤并给出标记列表。这里在训练中创建的字典作为函数的参数传递,但也可以从文件中加载。

于 2016-06-18T05:00:52.157 回答
1

基本上,Anjmesh Pandey 提出了一个很好的示例代码。然而,一个主题中概率最高的第一个词可能不仅仅代表该主题,因为在某些情况下,集群主题可能有一些主题与其他主题共享这些最常出现的词,甚至在它们的顶部。因此,返回一个主题的索引就足够了,它最有可能接近查询。

topic_id = sorted(lda[ques_vec], key=lambda (index, score): -score)

ques_vec 的转换为您提供了每个主题的想法,然后您将尝试通过检查一些主要对主题有贡献的单词来了解未标记的主题是关于什么的。

latent_topic_words = map(lambda (score, word):word lda.show_topic(topic_id))

show_topic() 方法返回一个元组列表,该列表按对主题有贡献的每个单词的分数按降序排列,我们可以通过检查这些单词的权重来大致了解潜在主题。

于 2015-03-23T19:07:16.027 回答