1

我有 Twitter 数据(用户名和他们的推文),我正在尝试对其进行聚类。文本文件大小为 151.7 MB。

  • 我将原始 txt 文本数据转换为 mahout 序列文件。

  • 我检查了这个序列文件,它充满了数据。它也是 151.7 MB。

  • 我试图将序列文件转换为稀疏向量。

在这一点上,显然出了问题。它声称成功,但它只创建字节大小的矢量文件。我的 TFIDF 矢量文件只有 90 字节,当原始 txt 文件和序列文件都是 151 MB 时,这显然是错误的。

最让我困惑的是,我看不出我拥有的数据与“Mahout in Action”的聚类示例中使用的路透社数据集之间有什么不同。它们都只是文本。

以下是我使用的确切命令:

--- 将原始文本 txt 文件转换为 mahout 序列文件。我还使用 seqdumper 检查了序列文件,它充满了用户名/推文数据。---

 sudo /opt/mahout/bin/mahout seqdirectory -c UTF-8 -i /home/efx/Desktop/tweetQueryOutput.txt -o /home/efx/Desktop/allNYCdataseqfiles

(检查序列文件,它充满了用户名/推文数据)

 sudo /opt/mahout/bin/mahout seqdumper -i /home/efx/Desktop/allNYCdataseqfiles/chunk-0 -o /home/efx/Desktop/allNYCdataseqfiles/sequenceDumperOutput

--- 然后尝试将序列文件转换为稀疏向量。---

 sudo /opt/mahout/bin/mahout seq2sparse -o /home/efx/Desktop/allNYC_DataVectors -i /home/efx/Desktop/allNYCdataseqfiles/ -seq
4

1 回答 1

0

在 Mahout 0.8+cdh5.0.2 下,您必须执行以下操作:

sudo /opt/mahout/bin/mahout seq2sparse 
-o /home/efx/Desktop/allNYC_DataVectors 
-i /home/efx/Desktop/allNYCdataseqfiles/
-seq
--maxDFPercent 100

--maDFPercent选项表示 DF 的最大文档百分比。它可以用来删除真正的高频项。默认值是 99。但如果你--maxDFSigma也使用它,它会覆盖这个值。

这对我来说很好,但我不确定 Mahout 的 0.7 版本。

于 2014-07-04T13:59:01.050 回答