我的 PIG 查询如下
emp = LOAD 'hdfs://master:9000/hrms/DimEmployee' AS (EmployeeID,OrganizationID,EmploymentType);
grouped = group emp by (OrganizationID, EmploymentType);
AggEmploymentType = FOREACH grouped GENERATE group.OrganizationID, group.EmploymentType,COUNT(emp.EmployeeID) as cnt;
DUMP AggEmploymentType;
下面给出了上述猪查询的分步说明。
- 从制表符分隔的 HDFS 文件中加载 100097 条记录。
- 按公司记录分组,就业状态
- 按 EmployeeID 统计记录。
- 转储输出。
执行上述查询后,Pig shell 说,成功读取了 100115 条记录。
在 Pig 查询成功执行后,我得到以下三个问题:
- 为什么 pig 准备的记录多于 HDFS 中可用的记录 (100115>100097)
- 为什么有警告消息“ACCESSING_NON_EXISTENT_FIELD 27 TIMES”
- 当我在 MySQL 中按查询运行相同的组时,结果的计数差异为 9。
请尽快解决我的问题。我的猪,hadoop 项目取决于您的及时响应。由于上述问题,我从过去 5 天开始感到震惊