我们的应用引擎数据存储中有一些非结构化的文本数据。我想在数据存储对象的子集上创建一个属性的“一次性”标签云。环顾四周,我看不到任何框架可以让我在不自己编写的情况下做到这一点。
我想到的方式是:
- 编写一个 map(如 map reduce)函数来遍历数据存储中特定类型的每个对象,
- 将文本字符串拆分为单词
- 对于每个单词递增一个计数器
- 使用最终计数通过一些第三方软件生成标签云(离线 - 欢迎任何建议)
因为我以前从未这样做过,所以我在徘徊,如果首先有一些框架可以为我做这件事(请),如果不是,我是否以正确的方式接近它。即,请随时指出计划中的漏洞。