如何在 pdf 和 doc 文件上运行 Hadoop wordcount 程序? 当我尝试在 pdf 文件上运行它时,输出显示奇怪的字符。
问问题
1557 次
2 回答
2
您提到的文件格式是二进制的,不适合作为字数的输入,除非将它们预处理成纯文本。您首先必须使用其他工具/库将它们转换为纯文本格式。
可能有一些免费的命令行实用程序可以帮助您做到这一点。
于 2013-03-08T20:43:29.270 回答
2
Hadoop不限于处理明文文件,你当然可以处理二进制文件,例如SequenceFile
s是Hadoop中最常见的二进制格式,但是如果你想要自定义二进制格式,你也可以通过实现自己的InputFormat
和RecordReader
.
我建议查看这篇关于在 Hadoop 中处理 .doc 文件的精彩文章,以及关于处理 .docx 和 .pdf 文件的这篇文章,这应该符合您的需求。
于 2013-03-09T20:17:17.713 回答