我们正在考虑将 Splunk 作为我们的数据存储区,并着眼于由 S3 支持的 AWS Data Lake。
将数据从 Splunk 迁移到 S3 的过程是什么?我已经阅读了很多关于将数据从 Splunk 存档到 S3 的文档,但不确定这是否将数据存档为可用格式,或者是否需要将其恢复为某种存档格式以恢复 splunk 本身?
我们正在考虑将 Splunk 作为我们的数据存储区,并着眼于由 S3 支持的 AWS Data Lake。
将数据从 Splunk 迁移到 S3 的过程是什么?我已经阅读了很多关于将数据从 Splunk 存档到 S3 的文档,但不确定这是否将数据存档为可用格式,或者是否需要将其恢复为某种存档格式以恢复 splunk 本身?
查看 Splunk 的 SmartStore 功能。它将您的非热存储桶移至 S3,从而节省存储成本。但是,只有在 AWS 上运行 Splunk 时,在 AWS 上运行 SmartStore 才有意义。否则,数据导出费用将使您破产。当 Splunk 需要搜索存储在 S3 中的存储桶并将该存储桶复制到索引器时,数据导出适用。有关详细信息,请参阅https://docs.splunk.com/Documentation/Splunk/8.0.0/Indexer/AboutSmartStore。
根据我的阅读,有几种方法可以做到:
到目前为止,我已经尝试使用 CLI 进行导出,并且一次成功地导出了大约 500,000 个事件
splunk search "index=main earliest=11/11/2019:00:00:01 latest=11/15/2019:23:59:59" -output rawdata -maxout 500000 > output2.dmp
但是 - 我不确定如何准确地重复此步骤以确保包含所有 1 亿多个事件。IE 搜索从 DATE A 到 DATE B 的 500,000 条记录,然后从 DATE B 到 DATE C 搜索接下来的 500,000 条记录 - 不会遗漏任何中间事件。