1

我在网上为此做了很多搜索,但我什么也没找到,尽管我觉得它必须有点普遍。我过去曾使用 Mahout 的 seqdirectory 命令来转换包含文本文件的文件夹(每个文件都是一个单独的文档)。但是在这种情况下,文档太多(100,000 多个),以至于我有一个非常大的文本文件,其中每一行都是一个文档。如何将这个大文件转换为 SequenceFile 格式,以便 Mahout 理解每一行都应该被视为一个单独的文档?非常感谢您的帮助。

4

1 回答 1

1

是的,如何做到这一点并不是很明显或很直观,尽管(你很幸运:P)我已经在堆栈中多次回答了这个确切的问题,例如这里。看一看 ;)

于 2012-10-31T09:20:01.437 回答