我有一个包含 70,429 个文件(296.5 mb)的语料库。我尝试通过使用整个语料库来找到二元语法。我编写了以下代码;
allFiles = ""
for dirName in os.listdir(rootDirectory):
for subDir in os.listdir(dirName):
for fileN in os.listdir(subDir):
FText = codecs.open(fileN, encoding="'iso8859-9'")
PText = FText.read()
allFiles += PText
tokens = allFiles.split()
finder = BigramCollocationFinder.from_words(tokens, window_size = 3)
finder.apply_freq_filter(2)
bigram_measures = nltk.collocations.BigramAssocMeasures()
for k,v in finder.ngram_fd.most_common(100):
print(k,v)
有一个根目录,根目录包含子目录,每个子目录包含许多文件。我所做的是;
我逐一阅读所有文件并将上下文添加到名为allFiles
. 最终,我将字符串拆分为标记并调用相关的二元组函数。问题是;
我运行了一天的程序,没有得到任何结果。有没有更有效的方法在包含大量文件的语料库中查找二元组?
任何意见和建议将不胜感激。提前致谢。