2

我想知道是否有一种方法可以对我试图在我拥有的推文数据集上运行的文本匹配运行嵌套查询。我在 BigQuery 中有一个表,其中包含我收集的讨论各种股票的推文,我想根据每条推文文本中的单词对该表进行分段。

我有一个情感词典(实际上它是一组表,其中每个表列出与感觉相关的单词。有一个表用于表示积极情绪的词,一个用于表示消极、不确定等的词),所以我想做的是如下所示:

SELECT text AS bullish_tweets
FROM bigtweettable
WHERE text CONTAINS (SELECT words FROM table_x);

我只是不确定 BigQuery 是否允许这种查询,或者是否有某些功能可以。因为我在情绪字典中使用的这些表每个都有几百到几千行,所以很高兴知道这一点。

非常感谢。

4

1 回答 1

1

除非您的推文已经用单词分隔,否则我无法想到按照您的要求进行操作。如果您预处理推文以拆分输入中的单词,您可以创建一个表示单词的重复字段。然后您可以进行查询:

SELECT text as bullish_tweets 
FROM bigtweettable
WHERE tweet_word IN (SELECT words from table_x)

bigtweettable 的架构类似于字段:类型:模式文本:字符串:可为空的 tweet_word:字符串:重复

如果 tweet_word 重复,您需要以 JSON 格式导入,因为 CSV 不支持重复值。或者,您可以预先扁平化并重复推文中每个单词的文本。

于 2013-03-21T20:24:18.220 回答