6

我从网上找到的示例中修补了以下代码:

# gensim modules
from gensim import utils
from gensim.models.doc2vec import LabeledSentence
from gensim.models import Doc2Vec
from sklearn.cluster import KMeans

# random
from random import shuffle

# classifier

class LabeledLineSentence(object):
    def __init__(self, sources):
        self.sources = sources

        flipped = {}

        # make sure that keys are unique
        for key, value in sources.items():
            if value not in flipped:
                flipped[value] = [key]
            else:
                raise Exception('Non-unique prefix encountered')

    def __iter__(self):
        for source, prefix in self.sources.items():
            with utils.smart_open(source) as fin:
                for item_no, line in enumerate(fin):
                    yield LabeledSentence(utils.to_unicode(line).split(), [prefix + '_%s' % item_no])

    def to_array(self):
        self.sentences = []
        for source, prefix in self.sources.items():
            with utils.smart_open(source) as fin:
                for item_no, line in enumerate(fin):
                    self.sentences.append(LabeledSentence(utils.to_unicode(line).split(), [prefix + '_%s' % item_no]))
        return self.sentences

    def sentences_perm(self):
        shuffle(self.sentences)
        return self.sentences

sources = {'test.txt' : 'DOCS'}
sentences = LabeledLineSentence(sources)

model = Doc2Vec(min_count=1, window=10, size=100, sample=1e-4, negative=5, workers=8)
model.build_vocab(sentences.to_array())

for epoch in range(10):
    model.train(sentences.sentences_perm())

print(model.docvecs)

我的 test.txt 文件每行包含一个段落。

代码运行良好并为每一行文本生成 DocvecsArray

我的目标是有这样的输出:

集群 1:[DOC_5,DOC_100,...DOC_N]
集群 2:[DOC_0,DOC_1,...DOC_N]

我找到了以下答案,但输出是:

簇 1:[单词,单词...单词]
簇 2:[单词,单词...单词]

如何更改代码并获取文档集群?

4

2 回答 2

7

所以看起来你快到了。

您正在输出一组向量。对于 sklearn 包,您必须将它们放入一个 numpy 数组中 - 使用 numpy.toarray() 函数可能是最好的。KMeans的文档非常出色,甚至在整个库中也很好。

请注意,我在DBSCAN上的运气比 KMeans 好得多,它们都包含在同一个 sklearn 库中。DBSCAN 不要求您指定要在输出中包含多少个集群。

两个链接中都有注释良好的代码示例。

于 2016-09-08T13:41:40.250 回答
0

就我而言,我使用了:

for doc in docs:
    doc_vecs = model.infer_vector(doc.split())
# creating a matrix from list of vectors
mat = np.stack(doc_vecs)

# Clustering Kmeans
km_model = KMeans(n_clusters=5)
km_model.fit(mat)
# Get cluster assignment labels
labels = km_model.labels_

# Clustering DBScan
dbscan_model = DBSCAN()
labels = dbscan_model.fit_predict(mat)  

其中 model 是预训练的 Doc2Vec 模型。就我而言,我不需要对培训的相同文档进行聚类,而是将新文档保存在docs列表中

于 2018-06-05T11:02:48.420 回答