2

我正在探索SOLR Cloud作为索引大量基于随机日志的文本并搜索相同文本的潜在解决方案之一。我有一个关于将日志文件数据发布到SOLR.

任何日志语句中的前几个字段都是重要字段(timestampseverity等),它们用空格键分隔。我们如何知道SOLR这些字段在哪里结束以及自由文本从哪里开始(它本身有很多空格字符)?

例如:“ Timestamp ModuleName Severity messageId大量自由文本,将由空格分隔。”

如果我能够向 中添加自由文本SOLR,我该如何搜索?我认为SOLR不允许我搜索自由文本,因为它不是其索引的一部分。如果是这样,那么我怎样才能让我的自由文本的某些部分也被索引?所以,可能有一些自由文本之外的字段也很有趣,我可能也想搜索它们。

说,像这样的声明:

Timestamp ModuleName Severity messageId - 大量自由文本将用空格分隔,但包含externalResponseValue也可搜索,但并非所有日志行都有它,而且它的位置也不固定在它出现的行内。”

谢谢!

苏米特

4

1 回答 1

1

您可以检查DIH :-

使用LineEntityProcessor 逐行处理日志文件
使用RegexTransformer将行拆分为片段并相应地用这些填充字段。
这将包括各个字段中的所有数据。如果您索引将使其可搜索的文本字段。

于 2012-11-07T11:28:49.837 回答