0

我有来自不同来源的产品数据。

我想将与产品相关的信息放在一个地方。

例如,我想将所有来源的与 Iphone-5 相关的信息放在一个地方。

这是问题所在,所有来源都没有相同的数据。例如,对于相同的产品,它们具有不同的名称,有些会带有名称的颜色,而有些则不会。

样本数据 :

Brand     |  Product Name                                   | Source | Information
Dell      |  Dell inspriron 15R 5050(Core i5/4gb/500/GB/Dos | Rev_Src| Very good product.
Dell      |  Dell inspriron 15R 5050, color: black/Blue     | Spc_Src| Ram | 4gb DDR3, Proce : 15 etc
Dell      | Dell inspriron 15r 5050 in  black color          | Stk_SRC| Available in India
DEll      | Window 7 with Dell inspiron 15r 5050 4gb ram    |usr_src | good performance

就像我们有更多产品的数据一样,

输出,我想要这样的信息,

Brand| Product                 | information
Dell | Dell inspiron 15 r 5050 | {Rev_Src : very good product, Rev_Src : Ram | 4 gb..., Stk_Src : available, Usr_Src : good performance}

问题:所有来源中的产品名称格式不同

我正在寻找解决方案,map-reduce 有帮助吗?

如果是,那么我应该使用带有数据存储或 Hadoop 的 Google App Engine(map reduce lib)。

注意:我正在开发基于 Google App Engine 的应用程序。

4

0 回答 0