0

我使用 hive 创建了弹性搜索索引。在这里,我有一个临时表,其中加载所有原始数据。从该表中选择一些符合某些条件的数据并将它们插入到与弹性搜索索引集成的表中。

创建索引后,我将在与 ES 和弹性搜索索引集成的表上比较 hive 表中的计数(在相同标准的主表中)。发现计数不一样。

在 ES 索引中它是:4663296 在与 ES 集成的表上:4663296(与 ES 相同)但在 hive 中它是:4611296(相同标准的主表) - 小于 ES

那么有人可以告诉我为什么这个计数在 ES 中更多。应该是一样的吧?

谢谢,拉克托

4

1 回答 1

0

发现ES中有一些重复记录。

所以,我在做什么,手动添加 id(数据中的一些键总是唯一的),现在计数是一样的。

只需添加一个表属性: TBLPROPERTIES('......., 'es.mapping.id' = 'field_name_of_the_unique_id'); 在 hive 表创建中。

谢谢

于 2014-08-06T13:13:43.107 回答