2

我有一个充满各种产品评论的数据库。我的任务是执行各种计算并使用聚合数据“创建”另一个“数据库/xml 导出”。我正在考虑用python编写命令行程序来做到这一点。但我知道以前有人做过,而且我知道有一些开源 python 解决方案或类似的解决方案可能会提供更多有趣的“聚合数据”,然后我可能会想到。

问题是除了从命令行进行基本数据操作之外,我对这个领域知之甚少,也不知道我应该使用什么术语来搜索这个东西。我真的不是在寻找一些科学/可视化的东西(并不是说我不介意该工具是否提供),一些简单的开始并逐渐看到/开发我需要的东西。

我唯一的要求是“最终聚合数据”在数据库中或导出为 XML 文件而不是专有内容。它比我的 python 脚本有点健壮,因为我必须处理 4 台机器上的“大量”数据。

任何提示我应该从哪里开始我的研究?

谢谢。

4

2 回答 2

1

你想进行什么样的分析?

如果您正在分析文本,请查看自然语言工具包(NLTK)。

如果您想索引和搜索数据,请查看whoosh搜索引擎。

请提供有关您要进行哪种分析的更多详细信息。

于 2009-09-24T17:36:31.777 回答
1

看起来您正在寻找数据集成解决方案。一个建议是Pentaho套件
的开源Kettle 项目部分。 对于 python,快速搜索产生了PyDISnapLogic

于 2009-09-24T18:06:24.270 回答