现在我必须编写一个小脚本来获取文档目录(给出的示例是 Revelation 中的每一章)并将它们转换为词频文档。到目前为止,我有:
foreach file ($1/*)
java Stemmer $file | tr " " "\n" | tr "[:punct:]" "\n" | egrep -v ^$ | sort |
egrep -x -v -f stopwords
所以,现在它遍历每个文件,通过 Porter 词干分析器运行它,去掉所有标点符号和多余的空格和黑线,对它们进行排序,并消除所有的停用词。我的问题是,我能做些什么来使输出从
apple
boy
boy
cat
cat
cat
dog
至
apple 1
boy 2
cat 3
dog 1