我想使用槌进行主题建模,我有一个问题。我的数据在一个文件中每行一个实例。但我没有考虑任何标签或实例名称。所以每一行都以文本开头。是否需要这些标签或实例名称?
问问题
723 次
1 回答
0
我不确定你到底想要什么。对我来说,在 Windows 中,我将所有数据放在像“D:\Data\test1”这样的文件夹中,在“test1”文件夹中,有许多 .txt 文件,每个文件都是一个实例。然后我bin\mallet import-dir --input D:\Data\test1 --output test1.mallet --keep-sequence --remove-stopwords --extra-stopwords extra.txt
用来生成模型。
我希望这能有所帮助。顺便说一句,您可以使用 Word 或 Excel 宏生成单独的 .txt 文件。
于 2014-08-18T04:30:57.877 回答