我正在尝试实现朴素贝叶斯算法来对 mahout 中的推文和 facebook 数据进行情感分析。我在文本文件中有这些推文和 Facebook 数据。我正在使用命令将这些文件转换为序列文件
bin/mahout seqdirectory -i /user/hadoopUser/sample/input -o /user/hadoopUser/sample/seqoutput
然后我尝试将序列文件转换为向量,以便使用命令向 mahout 提供输入
bin/mahout seq2sparse -i /user/hadoopUser/sample/seqoutput -o /user/hadoopUser/vectoroutput -ow -a org.apache.lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq
这是将整个文档转换为向量,但我想将每个句子转换为向量而不是整体,因为我不想对文档进行分类。我想对文档中的评论进行分类。谁能帮我解决这个问题?