5

我有一个 CSV 文件,我想将它转换为一个 SequenceFile,我最终将使用它来创建 NamedVectors 以在集群作业中使用。我一直在使用 seqdirectory 命令尝试创建一个 SequenceFile,然后使用 -nv 选项将该输出输入到 seq2sparse 中以创建 NamedVectors。看起来这是给一个大向量作为输出,但我最终希望我的 CSV 的每一行都成为一个 NamedVector。我哪里错了?

4

1 回答 1

2

seqdirectory命令将每个文件作为一个文档,因此实际上,您只有一个文档,因此您只能得到一个向量。为了使其正常工作,您可以将 CSV 文件的每一行都设为文件本身,其中文档的是文件的名称,是文件的内容。尽管如此,如果您的语料库很大,这是非常不切实际的,因为磁盘读取和写入可能会变得非常缓慢。

在实践中,您最好关注我在此评论中分享的链接

于 2012-08-17T07:08:30.583 回答