问题标签 [sequencefile]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何使用 Mahout 的 sequencefile API 代码?
Mahout 中存在用于将序列文件创建为bin/mahout seqdirectory -c UTF-8
-i <input address> -o <output address>
. 我想将此命令用作代码 API。
hadoop - 序列文件优于 hdfs 文本文件的优点
Hadoop 序列文件相对于 HDFS 平面文件(文本)的优势是什么?序列文件以什么方式有效?
可以将小文件组合并写入序列文件,但也可以对 HDFS 文本文件执行相同的操作。需要知道这两种方式的区别。我已经在谷歌上搜索了一段时间,如果我弄清楚这一点会有所帮助吗?
vector - 如何将下面的文本转换为序列文件,该文件又将转换为 mahout kmeans 的矢量?
大家下午好,
我的数据格式如下:
ID : VALUE(用户分配的标签)
0001:“PC、THINKPAD、T500”
0002:“电话、手机、IPHONE、苹果、IPHONE5”
.......等等。
我怎样才能编写代码:
1)首先,将它们转换成key:value格式的序列文件。
2)然后,将上面的序列文件转换为将用于kmeans聚类的向量?
我正在检查 SequenceFileFromdDirectory 和 SparseVectorFromSequenceFiles,但现在这些似乎有点复杂并且有点难以阅读。
所以,我想知道这里是否有人可以给我一个关于如何进行上述两种转换的简单示例代码?
非常感谢!
hadoop - 将 CSV 转换为序列文件
我有一个 CSV 文件,我想将它转换为一个 SequenceFile,我最终将使用它来创建 NamedVectors 以在集群作业中使用。我一直在使用 seqdirectory 命令尝试创建一个 SequenceFile,然后使用 -nv 选项将该输出输入到 seq2sparse 中以创建 NamedVectors。看起来这是给一个大向量作为输出,但我最终希望我的 CSV 的每一行都成为一个 NamedVector。我哪里错了?
hadoop - 将现有向量转换为 Mahout 向量
我正在尝试将词频值转换为 mahout 向量表示,以便我可以在给定向量上使用 LDA。我正在关注 mahout wiki,其中代码片段建议如何将现有向量转换为 Mahout 向量。
https://cwiki.apache.org/MAHOUT/creating-vectors-from-text.html
这是我的代码,我得到一个 NullPointerException 来代替创建 VectorWriter。apache cwiki 建议使用,
但是,我在 org.apache.hadoop.io.SequenceFile 中看不到 SequenceFile.createWriter;
这是完整的代码段。
这是错误,
org.apache.hadoop.io.SequenceFile$Writer.init(SequenceFile.java) 的 org.apache.hadoop.io.serializer.SerializationFactory.getSerializer(SerializationFactory.java:73) 的线程“主”java.lang.NullPointerException 中的异常:910) 在 org.apache.hadoop.io.SequenceFile$Writer.(SequenceFile.java:843) 在 org.apache.hadoop.io.SequenceFile$Writer.(SequenceFile.java:831) 在 org.apache.hadoop。 io.SequenceFile$Writer.(SequenceFile.java:823) 在 kbsi.ideal.LDATest.iterableTest(LDATest.java:161) 在 kbsi.ideal.LDATest.main(LDATest.java:194)
我真的很感谢你在这方面的帮助。谢谢
serialization - Hadoop Serializer Not Found 异常
我有一份工作,其输出格式为SequenceFileOuputFormat
.
我像这样设置输出键和值类:
SplitInfo
班级_implements Serializable,Writable
我将io.serializations
属性设置如下:
但是,在减速器方面,我收到此错误,告诉我 Hadoop 找不到序列化程序:
有人可以帮忙吗?
hadoop - SequenceFile.Writer的sync和syncFs是什么意思?
环境:Hadoop0.20.2-cdh3u5
我正在尝试使用使用 SequenceFile.Writer 的自定义工具将日志数据(10G)上传到 HDFS。
在上传过程中,如果工具崩溃(没有显式调用close()方法),上传的日志会丢失吗?
我应该及时调用sync()还是syncFs(),这两种方法是什么意思?
java - Hadoop 序列文件大小
我正在创建存储在 SequenceFile 中的 Hadoop Vector 的键值对的 HashMap。为了提高效率,我想知道键值对的向量有多长,以便我可以用适当的大小初始化 HashMap。
我使用了 Mahout seqdumper
,它在每个转储向量的末尾附加了一个计数。我查看了它的代码,但它使用了一个简单的迭代计数器(对于每一行counter++
),因此不是我想要的。
看起来也SequenceFile.MetaData
很有希望,所以我研究了一下。但是调试器显示它不包含任何条目。
有没有其他方法可以快速获得类似于.size()
SequenceFile 中的 Hadoop Vector 的方法?
编辑:这是我正在变成地图的 seqdumper 的输出。具体来说,每个键值对都是一个 IntWritable / NamedVector 对。我希望创建从键号到 URI 字符串的映射。共有 46599 个键值对,seqdumper
在文件末尾附加。
java - Mahout:将一个大文本文件转换为 SequenceFile 格式
我在网上为此做了很多搜索,但我什么也没找到,尽管我觉得它必须有点普遍。我过去曾使用 Mahout 的 seqdirectory 命令来转换包含文本文件的文件夹(每个文件都是一个单独的文档)。但是在这种情况下,文档太多(100,000 多个),以至于我有一个非常大的文本文件,其中每一行都是一个文档。如何将这个大文件转换为 SequenceFile 格式,以便 Mahout 理解每一行都应该被视为一个单独的文档?非常感谢您的帮助。