-1

How to read the.doc file using Apache pig Latin programming using map reduce


A = load './pig/test.docx';

B = foreach A generate flatten(TextLoader((chararray)$0)) as word;

C = group B by word;

D = foreach C generate COUNT(B), group;

store D into './wordcountone';


4

1 回答 1

0

您需要为您的 pig 脚本创建一个自定义加载函数。首先从简单的 .doc 或 .docx 解析开始,这里有一些示例:How read Doc or Docx file in java? 但我相信你会在谷歌上找到更多。

一旦您知道如何从 Word 文档中获取数据,您就需要实现您的 pig 功能。

自定义猪装载机的例子(一步一步)可以在这里找到

于 2013-08-26T11:00:24.660 回答