我有一个涉及 2 个 Pig 关系的 pig 脚本,可以说 A 和 B。A 是一个小关系,B 是一个大关系。我的 UDF 应该将所有 A 加载到每台机器上的内存中,然后在处理 B 时使用它。目前我是这样做的。
A = foreach smallRelation Generate ...
B = foreach largeRelation Generate propertyOfB;
store A into 'templocation';
C = foreach B Generate CustomUdf(propertyOfB);
然后我从'templocation'加载每台机器来获得A。这有效,但我有两个问题。
- 我的理解是我应该以某种方式使用 HDFS 缓存,但我不确定如何将关系直接加载到 HDFS 缓存中。
- 当我在我的 UDF 中重新加载文件时,我必须编写逻辑来解析从 A 输出到文件的输出,而我宁愿直接使用包和元组(是否有内置的 Pig java 函数来将字符串解析回 Bag /元组形式?)。
有谁知道应该怎么做?