我从一个字符串列表中创建了一个由标记特征序列组成的实例列表。通过命令行,我可以根据计数、tf-idf 等(https://github.com/mimno/Mallet/blob/master/src/cc/mallet/classify/tui/Vectors2Vectors.java)修剪这些数据。但是如果我想用 Java 来做呢?如何扩展我的代码?
我的目标是删除 LDA 主题建模的最常用词。
public static InstanceList createInstanceList(List<String> texts) {
ArrayList<Pipe> pipes = new ArrayList<Pipe>();
pipes.add(new CharSequence2TokenSequence());
pipes.add(new TokenSequenceLowercase());
pipes.add(new TokenSequenceRemoveStopwords());
pipes.add(new TokenSequence2FeatureSequence());
InstanceList instanceList = new InstanceList(new SerialPipes(pipes));
instanceList.addThruPipe(new ArrayIterator(texts));
return instanceList;
}
预先感谢您的帮助!