我正在使用斯坦福主题建模工具箱 (TMT) http://nlp.stanford.edu/software/tmt/tmt-0.4/,我想准备我的文本数据集。我有一个停用词的 txt 文件。
然而,
TermStopListFilter()
从我的 CSV 数据集中过滤掉停用词,只接受脚本中的列表,例如:
TermStopListFilter(List("positively","scrumptious"))
如何导入我的 stopwords.txt 文件并将其用作我的停用词列表?
我使用的代码的完整片段:
val source = CSVFile("filtered.csv");
val text = {
source ~>
Column(1) ~>
TokenizeWith(tokenizer) ~>
TermCounter() ~>
TermMinimumDocumentCountFilter(100) ~>
TermStopListFilter(TXTFile("stopwords.txt"))
TermDynamicStopListFilter(10) ~>
DocumentMinimumLengthFilter(5)
}