scala - 在 Scala 中将 TXT 文件作为停用词列表传递

Question

我正在使用斯坦福主题建模工具箱 (TMT) http://nlp.stanford.edu/software/tmt/tmt-0.4/，我想准备我的文本数据集。我有一个停用词的 txt 文件。

然而，

TermStopListFilter()

从我的 CSV 数据集中过滤掉停用词，只接受脚本中的列表，例如：

TermStopListFilter(List("positively","scrumptious"))

如何导入我的 stopwords.txt 文件并将其用作我的停用词列表？

我使用的代码的完整片段：

val source = CSVFile("filtered.csv"); 

val text = {
  source ~>                              
  Column(1) ~>                           
  TokenizeWith(tokenizer) ~>             
  TermCounter() ~>                       
  TermMinimumDocumentCountFilter(100) ~>   
  TermStopListFilter(TXTFile("stopwords.txt"))  
  TermDynamicStopListFilter(10) ~>       
  DocumentMinimumLengthFilter(5)
}

score 1 · Accepted Answer

好吧，如果你的停用词是“，”分隔，你可以试试这个：

 . 
 .
      TermStopListFilter(Source("stopwords.txt").getLines().map(_.split(",")).toList) 
 .
 .

如果您在 stopwords.txt 中的停用词由其他字符分隔， split(",")请相应地更改它，并且很可能您应该删除以下行：TermStopListFilter(List("positively","scrumptious"))

scala - 在 Scala 中将 TXT 文件作为停用词列表传递

1 回答 1

Related

Reference