我正在为一些研究做潜在的狄利克雷分析并不断遇到问题。大多数 lda 软件要求文档为 doclines 格式,即 CSV 或其他分隔文件,其中每一行代表整个文档。但是,Blei 的 lda-c和动态主题模型软件要求数据格式为:[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]
where[M]
是文档中唯一术语的数量,与每个术语关联的 [count] 是该术语在文档中出现的次数。请注意,这[term_1]
是一个索引该术语的整数;它不是一个字符串。
有谁知道可以让我快速转换为这种格式的实用程序?谢谢你。