2

如何在 pdf 和 doc 文件上运行 Hadoop wordcount 程序? 当我尝试在 pdf 文件上运行它时,输出显示奇怪的字符。

4

2 回答 2

2

您提到的文件格式是二进制的,不适合作为字数的输入,除非将它们预处理成纯文本。您首先必须使用其他工具/库将它们转换为纯文本格式。

可能有一些免费的命令行实用程序可以帮助您做到这一点。

于 2013-03-08T20:43:29.270 回答
2

Hadoop不限于处理明文文件,你当然可以处理二进制文件,例如SequenceFiles是Hadoop中最常见的二进制格式,但是如果你想要自定义二进制格式,你也可以通过实现自己的InputFormatRecordReader.

我建议查看这篇关于在 Hadoop 中处理 .doc 文件的精彩文章,以及关于处理 .docx 和 .pdf 文件的这篇文章,这应该符合您的需求。

于 2013-03-09T20:17:17.713 回答