3

我面临着根据以下要求分析不同系统日志文件的挑战:

  • 数百个系统
  • 每天有数百万条不同格式的日志

除了许多其他目标之外,我最大的挑战是对所有当前系统日志以及部分历史日志事件的所有传入日志进行实时相关性分析。

目前,我们专注于 MongoDB、ElasticSearch、Hadoop 等,以应对这一挑战。

另一方面,我读过一些关于 Google Bigtable 和 Bigquery 的有趣内容。

所以我的问题是,为了进行实时分析,Bigtable 和/或 Bigquery 是一个值得研究的解决方案吗?

我没有使用这两种产品的经验,所以我希望这些 Google 解决方案是否可以替代我的要求的一些提示。

THX & BR 驱动

编辑:

太宽泛。你需要展示你需要做的实际分析。bigquery 会比用 nosql 自制的便宜得多

我们的目标是开发一个系统,该系统能够根据当前日志事件(或不同日志事件的组合)及其过去与其他系统行为的交互来生成警告。

因此,我们必须能够针对大量非结构化历史数据对当前事件进行快速相关性分析。

我知道这个需求描述可能不是最具体的,但我们正处于这个项目的开始阶段。所以我提出这个问题的目标是为我们的下一次团队会议提供一些论据,我们是否应该考虑仔细研究 Bigtable / Bigquery。

4

1 回答 1

3

我最喜欢的 BigQuery 功能之一是它能够运行关联。

这是我几年前写的与 BigQuery 教程的相关性:http: //nbviewer.ipython.org/gist/fhoffa/6459195

例如,要根据航班延误对最相关的机场进行排名和查找:

SELECT a.departure_state, b.departure_state, corr(a.avg, b.avg) corr, COUNT(*) c
FROM
(SELECT date, departure_state, AVG(departure_delay) avg , COUNT(*) c
FROM [bigquery-samples:airline_ontime_data.flights]  
GROUP BY 1,2 HAVING c > 5  
) a
JOIN
(SELECT date, departure_state , 
AVG(departure_delay) avg, COUNT(*) c FROM [bigquery-samples:airline_ontime_data.flights] 
GROUP BY 1,2 HAVING c > 5  ) b
ON a.date=b.date
WHERE a.departure_state < b.departure_state
GROUP EACH BY 1, 2
HAVING c > 5
ORDER BY corr DESC;

在接下来的 5 分钟内自己尝试一下!快速入门教程:https ://www.reddit.com/r/bigquery/comments/3dg9le/analyzing_50_billion_wikipedia_pageviews_in_5/

于 2015-09-25T15:35:22.860 回答