我正在尝试使用 Python 遵循“构建机器学习系统”一书中关于主题建模/潜在狄利克雷分配 (LDA) 的教程。
我在这本书中没有走得太远,主题建模的第一部分为我返回了错误:
from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ap/ap.dat', './data/ap/vocab.txt')
错误:
63
64 self.fname = fname
---> 65 with utils.smart_open(fname_vocab) as fin:
66 words = [utils.to_unicode(word).rstrip() for word in fin]
67 self.id2word = dict(enumerate(words))
/Users/user/Library/Enthought/Canopy_64bit/User/lib/python2.7/site-packages/gensim/utils.pyc in smart_open(fname, mode)
659 from gzip import GzipFile
660 return make_closing(GzipFile)(fname, mode)
--> 661 return open(fname, mode)
662
663
IOError: [Errno 2] No such file or directory: './data/ap/vocab.txt'
vocab.txt 文件不存在,但是切换到它应该在的目录,我发现以下内容:
$ ls download_ap.sh download_wp.sh preprocess-wikidata.sh
看起来ap数据需要单独下载(书中没有提到),所以这样做:
sh download_ap.sh
我明白了:
download_ap.sh: line 2: wget: command not found
tar: Error opening archive: Failed to open 'ap.tgz'
有谁知道如何解决这个问题?
谢谢