我想从我的 CSV 文件中的数据中删除重复项。第一列是年份,第二列是句子。无论年份信息如何,我都想删除任何重复的句子。
有没有我可以在 val text = { } 中插入的命令来删除这些欺骗?
我的脚本是:
val source = CSVFile("science.csv");
val text = {
source ~>
Column(2) ~>
TokenizeWith(tokenizer) ~>
TermCounter() ~>
TermMinimumDocumentCountFilter(30) ~>
TermDynamicStopListFilter(10) ~>
DocumentMinimumLengthFilter(5)
}
谢谢!