0

我正在Doc2Vec从图书馆学习模型gensim并按如下方式使用它:

class MyTaggedDocument(object):
    def __init__(self, dirname):
        self.dirname = dirname

    def __iter__(self):
        for fname in os.listdir(self.dirname):
            with open(os.path.join(self.dirname, fname),encoding='utf-8') as fin:
                print(fname)
                for item_no, sentence in enumerate(fin):
                    yield LabeledSentence([w for w in sentence.lower().split() if w in stopwords.words('english')], [fname.split('.')[0].strip() + '_%s' % item_no])
sentences = MyTaggedDocument(dirname)
model = Doc2Vec(sentences,min_count=2, window=10, size=300, sample=1e-4, negative=5, workers=7)

输入dirname是一个目录路径,为了简单起见,它只有 2 个文件,每个文件包含 100 多行。我正在关注异常。

输出

此外,通过print声明,我可以看到迭代器在目录上迭代了 6 次。为什么会这样?

任何形式的帮助将不胜感激。

4

1 回答 1

0

它看起来像一个文本示例对象,它的形状应该像一个TaggedDocument(带有wordstags属性,以前称为LabeledSentence),在某种程度上是一个普通的字符串。您是否 100% 确定屏幕截图中的错误是由您包含的可迭代代码生成的?(这里的代码看起来只能发出可接受的LabeledSentece对象。)

您提供的语料库 Iterable 被读取一次以进行初始扫描,发现所有单词/标签,然后再次多次进行训练。多少次由iter参数控制,默认值(在最近版本的 gensim 中)为 5。因此初始扫描加上 5 次训练通过等于 6 次总迭代。(10 次或更多次迭代对于 Doc2Vec 来说很常见。)

于 2017-01-19T02:52:01.610 回答