我知道有很多关于部分匹配的问题,我已经阅读了尽可能多的内容,但我仍然没有设法使用 R 提取我需要的内容。
简而言之,我的问题是我有一个包含超过一百万行西班牙三元组的数据集,我只想找到那些有动词的数据集。为了使这更容易,我在西班牙语中添加了 500 个最常见的动词,以便尝试将它们与三元组相匹配。
我有一个这样的数据集:
data <- data_frame(trigrams= c("no veo que", "no me gusta", "si habla de", "la mesa de", "el caso que"), fequency=c(112, 345, 578), verb=c("hablar", "gustar", "leer"))
第三列(“动词”)中的动词是不定式,我想将它们与第一列(“三元组”)中的动词部分匹配。我认为在这种情况下,能够使用 for 循环来遍历 500 个我想要部分匹配的超过一百万个三元组的动词是理想的。
所以在这种情况下:“gustar”应该部分匹配“no me gusta”,任何东西都不应该匹配像“el caso que”这样的无动词三元组。
我真的希望这是有道理的,我以前从未使用过这些数据量,而且我对正则表达式太陌生,无法自己真正解决这个问题。