我是 hadoop 及其所有衍生产品的新手。我真的被大量可用的信息吓倒了。
但我意识到的一件事是,要开始实施/使用 hadoop 或分布式代码,必须从根本上改变他们思考问题的方式。
我想知道是否有人可以在以下方面帮助我。
所以,基本上(像其他人一样)我有一个原始数据。我想解析它并提取一些信息,然后运行一些算法并保存结果。
假设我有一个文本文件“foo.txt”,其中数据如下:
id,$value,garbage_field,time_string\n
1, 200, grrrr,2012:12:2:13:00:00
2, 12.22,jlfa,2012:12:4:15:00:00
1, 2, ajf, 2012:12:22:13:56:00
正如你所看到的,这个id可以重复。这个id可以像一个客户花了多少钱!!我想要做的是将结果保存在一个文件中,其中包含每个客户在“早上”、“下午”、“晚上”、“晚上”花了多少钱(您可以定义一些时间段来定义早上和都是。例如这里可能
1, 0,202,0,0
1 is the id, 0--> 0$ spent in morning, 202 in afternon, 0 in evening and night
现在我有一个 python 代码.. 但我必须在猪中实现它.. 才能开始。如果有人可以通过这个来写/指导我。这就是我开始所需要的。
谢谢