我们拥有庞大的扩展用户网络,我们使用徽章进行跟踪。每月的总流量约为 6000 万次展示。我们目前正在考虑从一个相当慢的、基于数据库的日志记录解决方案(基于 PHP 定制构建——混乱......)切换到一个依赖于 Amazon S3 日志和 Splunk 的简单的基于日志的替代方案。
在将 Splunk 用于其他一些分析任务之后,我真的很喜欢它。但目前尚不清楚如何在系统中设置像 S3 这样的源。似乎远程源需要安装通用转发器,这不是一个选项。
对此有什么想法吗?
我们拥有庞大的扩展用户网络,我们使用徽章进行跟踪。每月的总流量约为 6000 万次展示。我们目前正在考虑从一个相当慢的、基于数据库的日志记录解决方案(基于 PHP 定制构建——混乱......)切换到一个依赖于 Amazon S3 日志和 Splunk 的简单的基于日志的替代方案。
在将 Splunk 用于其他一些分析任务之后,我真的很喜欢它。但目前尚不清楚如何在系统中设置像 S3 这样的源。似乎远程源需要安装通用转发器,这不是一个选项。
对此有什么想法吗?
答案很晚,但我一直在寻找同样的东西,并找到了一个 Splunk 应用程序,可以满足您的需求,http://apps.splunk.com/app/1137/。我还没有尝试过。
我建议将 j-son 预处理数据记录到 documentdb 数据库中。例如,结合 azure documentdb 使用适合您的场景的 azure 队列或类似的服务总线消息传递技术。因此,我将保留您基于数据库的方法并将其修改为无模式且易于扩展的基于文档的数据库。
这是我的理解,
创建一个 Splunk 实例。使用 splunk 的网站版本或本地 AMI 创建运行 splunk 的 EC2。
在 EC2 上安装 Splunk Add-On for AWS 应用程序。
根据输入日志类型(例如 Cloudtrail 日志、配置日志、通用日志等)配置插件并提供 AWS 账户 ID 或 IAM 角色等参数。
附加组件将在指定时间(默认为 30 秒)后自动 ping AWS S3 源并获取最新日志。
对于通用用例(如我们的),您可以尝试为 Splunk 配置通用 S3 输入
我使用来自 AWS Marketplace 的http://www.insight4storage.com/按前缀、存储桶或存储类别跟踪我的 AWS S3 存储使用总量;另外,它按前缀和每个存储桶向我显示了以前的版本存储。除了其 UI 和 Web 服务 API 之外,它还具有将 S3 数据保存为可能适用于您的用例的 splunk 格式日志的设置。