csv - 文本消息中字符串的猪计数出现

Question

我有两个文件——venues.csv 和 tweets.csv。我想为每个场所计算来自推文文件的推文消息中出现的次数。

我已经在 HCatalog 中导入了 csv 文件。

到目前为止我设法做的事情：

我知道如何过滤text字段并获取这些包含'Shell'其推文消息的元组。我想做同样的事情，但不是使用 hard-coded Shell，而是name从venuesNames包中的每一个。我怎样才能做到这一点？另外，如何generate正确使用该命令来生成一个新包，该包将计数结果与场地名称相匹配？

a = LOAD 'venues_test_1' USING org.apache.hcatalog.pig.HCatLoader();
b = LOAD 'tweets_test_1' USING org.apache.hcatalog.pig.HCatLoader();

venuesNames = foreach a generate name;

countX = FILTER b BY (text matches '.*Shell.*');

venueToCount = generate ('Shell' as venue, COUNT(countX) as countVenues); 

DUMP venueToCount;

我正在使用的文件是：

推文.csv

created_at,text,location
Sat Nov 03 13:31:07 +0000 2012, Sugar rush dfsudfhsu, Glasgow
Sat Nov 03 13:31:07 +0000 2012, Sugar rush ;dfsosjfd HAHAHHAHA, London
Sat Apr 25 04:08:47 +0000 2009, at Sugar rush dfjiushfudshf, Glasgow
Thu Feb 07 21:32:21 +0000 2013, Shell gggg, Glasgow
Tue Oct 30 17:34:41 +0000 2012, Shell dsiodshfdsf, Edinburgh
Sun Mar 03 14:37:14 +0000 2013, Shell wowowoo, Glasgow
Mon Jun 18 07:57:23 +0000 2012, Shell dsfdsfds, Glasgow
Tue Jun 25 16:52:33 +0000 2013, Shell dsfdsfdsfdsf, Glasgow

场地.csv

city,name
Glasgow, Sugar rush
Glasgow, ABC
Glasgow, University of Glasgow
Edinburgh, Shell
London, Big Ben

我知道这些是基本问题，但我刚刚开始使用 Pig，任何帮助将不胜感激！

score 2 · Accepted Answer

我认为您的场地名称列表是独一无二的。如果不是，那么无论如何您都会遇到更多问题，因为您需要消除正在谈论的地点的歧义（也许通过参考城市字段）。但是，忽略这种潜在的并发症，您可以执行以下操作：

您已经描述了一个模糊连接。在 Pig 中，如果无法强制记录包含标准值（在这种情况下，必须使用 UDF），则需要使用CROSS运算符。请谨慎使用，因为如果您将两个关系与M和N记录交叉，结果将是与M*N记录的关系，这可能超出您的系统可以处理的范围。

一般策略是 1)CROSS两个关系，2) 为每个记录创建自定义正则表达式*，以及 3) 过滤通过正则表达式的那些。

venues = LOAD 'venues_test_1' USING org.apache.hcatalog.pig.HCatLoader();
tweets = LOAD 'tweets_test_1' USING org.apache.hcatalog.pig.HCatLoader();

/* Create the Cartesian product of venues and tweets */
crossed = CROSS venues, tweets;
/* For each record, create a regex like '.*name.*'
regexes = FOREACH crossed GENERATE *, CONCAT('.*', CONCAT(venues::name, '.*')) AS regex;
/* Keep tweet-venue pairs where the tweet contains the venue name /*
venueMentions = FILTER regexes BY text MATCHES regex;

venueCounts = FOREACH (GROUP venueMentions BY venues::name) GENERATE group, COUNT($1);

如果某些推文提到多个地点，那么所有推文的总和venueCounts可能会超过推文的数量。

*请注意，您必须小心使用此技术，因为如果场地名称包含在 Java 正则表达式中具有特殊解释的字符，则需要对它们进行转义。

csv - 文本消息中字符串的猪计数出现

1 回答 1

Related

Reference