我正在进入一个项目来进行意见挖掘(数据挖掘-> 网络挖掘-> 意见挖掘)以获取所包含单词的语义方向。我们将使用爬虫来获取页面意见。现在的问题是,我应该使用哪种类型的数据库(OO、关系、分层等),最好在这种类型的项目中使用。我知道这是一个具体的问题,我不期待每个人的回应,但至少有人已经这样做了,这会有所帮助。
问候!
我正在进入一个项目来进行意见挖掘(数据挖掘-> 网络挖掘-> 意见挖掘)以获取所包含单词的语义方向。我们将使用爬虫来获取页面意见。现在的问题是,我应该使用哪种类型的数据库(OO、关系、分层等),最好在这种类型的项目中使用。我知道这是一个具体的问题,我不期待每个人的回应,但至少有人已经这样做了,这会有所帮助。
问候!
如果您需要大规模且响应迅速的东西,您可能需要选择 Google 的BigTable或类似的东西。在原型级别,我相信您可以使用传统的关系数据库,但在某些时候您会遇到性能障碍。参见Brewer 的 CAP 定理。
根据我在这种情况下的经验,关系数据库可以很好地满足您的目的。在存储其中的 Web 内容部分时,您需要格外小心——无论您是想完全使用数据库来存储它,还是像文件系统一样简单地存储它。BLOB 特别需要格外小心,它们会增加您的维护工作。
同样基于项目的性质,您肯定会使用很多已经内置的组件等。其中许多已经支持/易于扩展以使用关系数据库作为数据存储。