我有一个搜索日志,其中包含时间、地点和查询等字段。我想从特定时间之间的特定地点找到查询次数最多的单词。所有字段,即日期、时间、query_String 都是字符数组。我有以下猪脚本,但它没有执行所需的操作。
Data = LOAD 'data' USING CustomPigStorage();
FClients = FILTER Data BY NOT(country is null);
Clients = FOREACH FClients GENERATE date,time, country,query_string as query;
grp = group Clients by (query, country, date, time);
wth_count = foreach grp generate FLATTEN(group), COUNT(Clients) as count;
例如,我希望结果是“下午 2 点到 3 点之间,你好在美国被搜索了 4 次”。我基本上对 Count() 函数感到困惑。对猪来说相对较新。我相信我的 count() 在这里计算我拥有的记录总数。