我正在使用 Hadoop+ELK 堆栈来构建分析堆栈。我正在尝试每天刷新索引。
我正在使用来自第三方的 CSV 格式的数据。我无法控制输入数据,即我无法要求更改 CSV 文件的架构。
问题是 CSV 记录中没有唯一 ID,甚至组合列以生成唯一 ID 也不起作用。因此,在刷新 Elasticsearch 时会将重复数据添加到索引中。
所以,如果第 1 天的数据是这样的
Product1,Language1,Date1,$1
Product2,Language2,Date1,$12
Day2 数据变为
Product1,Language1,Date1,$1
Product2,Language2,Date1,$12
Product1,Language1,Date1,$1
Product2,Language2,Date1,$12
Product3,Language1,Date2,$5(new record added on day2)
在 ELK 中是否有任何好的方法来处理这个问题。我正在使用 Logstash 来使用 csv 文件。