0

在一个完美的世界里,我可以随时获得大量数据,而无需花费任何时间来请求和接收它。但是在实际应用程序的上下文中,例如 google 或 facebook,您将大量数据存储在需要时间查询的数据库中,然后您尝试处理这些数据以得出有意义的结论/关系。

在 sql 中对大量数据进行计数和排序的上下文中,您会将数据存储在汇总表中以避免处理......并且只需使用 cron 更新这些表。但是统计分析和nlp似乎有所不同。

问题是,实际统计/nlp/etc 分析应该在数据生命周期的哪个时间点发生?

4

2 回答 2

1

您通常这样做的方式是收集数据,将其放入某种数据库(SQL 或 NoSQL),然后在处理大量数据时将其转储到 hadoop 网格中;否则做你通常做的任何事情。然后你有工作分析这些数据并将结果反馈给你。

获取数据 -> 存储 -> 转储 -> 分析 -> 使用离线分析结果

在实际数据库上处理数据并不能很好地工作。

于 2012-04-04T18:15:33.037 回答
0

当你说 NLP 时,这取决于你的想法。当几十条推文/状态更新存储在某个地方时,您就可以开始阅读和分析它们了。在 NLP 发生时重复查询您唯一的生产服务器可能不是一个好主意——您可能希望转储所有数据并从那里工作。

于 2012-04-04T16:50:37.910 回答